強化學習實戰:強化學習在阿里的技術演進和業務創新

強化學習實戰:強化學習在阿里的技術演進和業務創新

基本介紹

  • 中文名
  • 作者
  • 出版社
  • 出版時間
  • 頁數
  • 定價
  • 開本
  • ISBN
  • 字 數
內容簡介,圖書目錄,

內容簡介

圖書目錄

4.4 實驗與分析 69
4.4.1 實驗設定 69
4.4.2 對比基準 70
4.4.3 實驗結果 70
4.4.4 線上示例 73
4.5 總結與展望 75
第5章 虛擬淘寶 76
5.1 研究背景 77
5.2 問題描述 79
5.3 虛擬化淘寶 80
5.3.1 用戶生成策略 81
5.3.2 用戶模仿策略 83
5.4 實驗與分析 85
5.4.1 實驗設定 85
5.4.2 虛擬淘寶與真實淘寶對比 85
5.4.3 虛擬淘寶中的強化學習 87
5.5 總結與展望 90
第6章 組合最佳化視角下基於強化學習的精準定向
廣告OCPC業務最佳化 92
6.1 研究背景 93
6.2 問題建模 94
6.2.1 獎賞設計 94
6.2.2 動作定義 94
6.2.3 狀態定義 95
6.3 模型選擇 100
6.4 探索學習 102
6.5 業務實戰 103
6.5.1 系統設計 103
6.5.2 獎賞設計 105
6.5.3 實驗效果 106
6.6 總結與展望 106
第7章 策略最佳化方法在搜尋廣告排序和競價機制中的套用 108
7.1 研究背景 109
7.2 數學模型和最佳化方法 110
7.3 排序公式設計 112
7.4 系統簡介 113
7.4.1 離線仿真模組 114
7.4.2 離線訓練初始化 114
7.5 線上策略最佳化 117
7.6 實驗與分析 118
7.7 總結與展望 120

相關詞條

熱門詞條

聯絡我們