強化學習：前沿算法與套用

內容簡介

強化學習是機器學習的重要分支，是實現通用人工智慧的重要途徑。本書介紹了強化學習在算法層面的快速發展，包括值函式、策略梯度、值分布建模等基礎算法，以及為了提升樣本效率產生的基於模型學習、探索與利用、多目標學習、層次化學習、技能學習等算法，以及一些新興領域，包括離線學習、表示學習、元學習等，旨在提升數據高效性和策略的泛化能力的算法，還介紹了套用領域中強化學習在智慧型控制、機器視覺、語言處理、醫療、推薦、金融等方面的相關知識。

本書深入淺出、結構清晰、重點突出，系統地闡述了強化學習的前沿算法和套用，適合從事人工智慧、機器學習、最佳化控制、機器人、遊戲開發等工作的專業技術人員閱讀，還可作為計算機、人工智慧、智慧型科學相關專業的研究生和高年級本科生的教材。

圖書目錄

序言

前言

第1章強化學習簡介/

1.1從監督學習到強化學習/

1.2強化學習的發展歷史/

1.3強化學習的研究範疇/

1.4強化學習的套用領域/

第2章強化學習基礎知識/

2.1強化學習的核心概念/

2.2馬爾可夫性和決策過程/

2.3值函式和策略學習/

第3章基於值函式的強化學習算法/

3.1深度Q學習的基本理論/

3.1.1深度Q網路/

3.1.2經驗池/

3.1.3目標網路/

3.2深度Q學習的過估計/

3.2.1過估計的產生原因/

3.2.2Double Q-學習/

3.3深度Q學習的網路改進和高效採樣/

3.3.1Dueling網路/

3.3.2高效採樣/

3.4周期後序疊代Q學習/

3.5Q學習用於連續動作空間/

3.5.1基於並行結構的 Q學習/

3.5.2基於順序結構的Q學習/

3.6實例：使用值函式學習的Atari遊戲/

3.6.1環境預處理/

3.6.2Q網路的實現/

3.6.3Q學習的核心步驟/

第4章策略梯度疊代的強化學習算法/

4.1REINFORCE 策略梯度/

4.1.1策略梯度的基本形式/

4.1.2降低策略梯度的方差/

4.2異步策略梯度法/

4.2.1引入優勢函式/

4.2.2異步策略梯度/

4.3近端策略最佳化法/

4.3.1裁剪的最佳化目標/

4.3.2自適應的最佳化目標/

4.4深度確定性策略梯度/

4.4.1critic學習/

4.4.2actor學習/

4.4.3拓展1：探索噪聲/

4.4.4拓展2：孿生DDPG/

4.5最大熵策略梯度/

4.5.1熵約束的基本原理/

4.5.2SAC算法/

4.6實例：使用策略梯度的Mujoco任務/

強化學習：前沿算法與套用

基本介紹

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條