強化學習實戰:強化學習在阿里的技術演進和業務創新

書籍信息,內容簡介,圖書目錄,

書籍信息

作譯者:笪慶,曾安祥
出版時間:2018-10千 字 數:222版次:01-01頁 數:232
開本:16開裝幀:I S B N :9787121338984
換版:
紙質書定價:¥89.0

內容簡介

本書匯集了阿里巴巴一線算法工程師在強化學習套用方面的經驗和心得,覆蓋了搜尋事業部、阿里媽媽事業部、計算平台事業部以及智慧型服務事業部等多條業務線,工業界首次系統地披露了強化學習在網際網路級別的套用上使用的技術細節,其中更包含了阿里巴巴的算法工程師對強化學習的深入理解、思考和創新。本書主要面向算法工程師,強化學習方向的研究人員以及所有機器學習愛好者。作為算法工程師,你將了解強化學習在實際套用中的建模方法,常見的問題以及對應的解決思路,提高建模和解決業務問題的能力;作為強化學習方向的研究人員,你將了解到在遊戲之外更多實際的強化學習問題以及對應的解決方案,擴寬研究視野;作為機器學習愛好者,你將了解到阿里巴巴的一線機器學習算法工程師是如何發現問題,定義問題和解決問題的,激發研究興趣以及提升專業素養。

圖書目錄

第1章 強化學習基礎 1
1.1 引言 2
1.2 起源和發展 3
1.3 問題建模 5
1.4 常見強化學習算法 8
1.4.1 基於值函式的方法 9
1.4.2 基於直接策略搜尋的方法 12
1.5 總結 14
第2章 基於強化學習的實時搜尋排序策略調控 15
2.1 研究背景 16
2.2 問題建模 17
2.2.1 狀態定義 17
2.2.2 獎賞函式設計 18
2.3 算法設計 19
2.3.1 策略函式 19
2.3.2 策略梯度 20
2.3.3 值函式的學習 21
2.4 獎賞塑形 22
2.5 實驗效果 25
2.6 DDPG與梯度融合 27
2.7 總結與展望 28
第3章 延遲獎賞在搜尋排序場景中的作用分析 30
3.1 研究背景 31
3.2 搜尋互動建模 31
3.3 數據統計分析 33
3.4 搜尋排序問題形式化 36
3.4.1 搜尋排序問題建模 36
3.4.2 搜尋會話馬爾可夫決策過程 38
3.4.3 獎賞函式 39
3.5 理論分析 40
3.5.1 馬爾可夫性質 40
3.5.2 折扣率 41
3.6 算法設計 44
3.7 實驗與分析 48
3.7.1 模擬實驗 48
3.7.2 搜尋排序套用 51
第4章 基於多智慧型體強化學習的多場景聯合最佳化 54
4.1 研究背景 55
4.2 問題建模 57
4.2.1 相關背景簡介 57
4.2.2 建模方法 58
4.3 算法套用 65
4.3.1 搜尋與電商平台 65
4.3.2 多排序場景協同最佳化 66
4.4 實驗與分析 69
4.4.1 實驗設定 69
4.4.2 對比基準 70
4.4.3 實驗結果 70
4.4.4 線上示例 73
4.5 總結與展望 75
第5章 虛擬淘寶 76
5.1 研究背景 77
5.2 問題描述 79
5.3 虛擬化淘寶 80
5.3.1 用戶生成策略 81
5.3.2 用戶模仿策略 83
5.4 實驗與分析 85
5.4.1 實驗設定 85
5.4.2 虛擬淘寶與真實淘寶對比 85
5.4.3 虛擬淘寶中的強化學習 87
5.5 總結與展望 90
第6章 組合最佳化視角下基於強化學習的精準定向
廣告OCPC業務最佳化 92
6.1 研究背景 93
6.2 問題建模 94
6.2.1 獎賞設計 94
6.2.2 動作定義 94
6.2.3 狀態定義 95
6.3 模型選擇 100
6.4 探索學習 102
6.5 業務實戰 103
6.5.1 系統設計 103
6.5.2 獎賞設計 105
6.5.3 實驗效果 106
6.6 總結與展望 106
第7章 策略最佳化方法在搜尋廣告排序和競價機制中的套用 108
7.1 研究背景 109
7.2 數學模型和最佳化方法 110
7.3 排序公式設計 112
7.4 系統簡介 113
7.4.1 離線仿真模組 114
7.4.2 離線訓練初始化 114
7.5 線上策略最佳化 117
7.6 實驗與分析 118
7.7 總結與展望 120

相關詞條

熱門詞條

聯絡我們