深度強化學習原理與實踐(2024年清華大學出版社出版的圖書)

深度強化學習原理與實踐(2024年清華大學出版社出版的圖書)

本詞條是多義詞,共2個義項
更多義項 ▼ 收起列表 ▲

《深度強化學習原理與實踐》是2024年清華大學出版社出版的圖書,作者是陳喆。

基本介紹

  • 中文名:深度強化學習原理與實踐
  • 作者:陳喆
  • 出版時間:2024年5月
  • 出版社:清華大學出版社
  • ISBN:9787302660705 
  • 定價:59 元
內容簡介,前言,圖書目錄,

內容簡介

本書從原理的角度,力求講解清楚深度學習、強化學習、深度強化學習中的一些精選方法,並從實踐的角度,通過一系列循序漸進的原創實驗,引領讀者獨立編程實現這些方法,以期為讀者精通深度強化學習並套用深度強化學習方法解決實際問題奠定堅實基礎。

前言

“水之積也不厚,則其負大舟也無力。風之積也不厚,則其負大翼也無力。” 深度強化學習是機器學習王冠上的一顆璀璨明珠。從AlphaGo到ChatGPT,處處都有它的身影。 雖然深度強化學習問世至今已有多年,但鮮見適合初學者學習的、講解清楚的、系統的、原理與實踐並重的深度強化學習教材。這是阻礙更多人掌握深度強化學習的“攔路虎”。其中一個原因是,強化學習領域和深度學習領域的技術相對複雜——不易想清楚,更不易講清楚。強化學習領域有一本權威的英文教科書,筆者曾在幾年內讀了幾遍,似懂非懂。某些知名高校的強化學習英文課程,聽得雲裡霧裡。有的發表在知名學術期刊上的深度強化學習高被引論文,也存在值得商榷之處。 一本好書是一條捷徑,儘管著書是一項苦差事、著“填坑”書更是嘔心瀝血坐冷板凳啃硬骨頭。

圖書目錄

目錄
第1章引言1
1.1深度強化學習及其簡史1
1.2深度強化學習的套用領域3
1.3深度強化學習方法的實現4
1.3.1NumPy庫和Matplotlib庫4
1.3.2PyTorch框架7
1.4本章實驗解析11
1.5本書各章聯繫14
1.6本章小結14
1.7思考與練習15
第2章從神經網路到深度學習16
2.1神經網路回顧16
2.1.1神經網路的推測過程17
2.1.2神經網路的訓練過程18
2.1.3神經網路實踐23
2.2從神經網路到深度神經網路26
2.3深度神經網路29
2.3.1深度神經網路的推測過程29
2.3.2深度神經網路的訓練過程30
2.3.3反向模式自動微分34
2.3.4深度神經網路實踐及分析35
2.4卷積神經網路37
2.4.1卷積層和合併層38
2.4.2卷積神經網路實踐41
2.5循環神經網路42
2.6本章實驗解析45
2.7本章小結51
2.8思考與練習52第3章強化學習基礎53
3.1強化學習概述53
3.1.1多老虎機問題53
3.1.2利用與探索57
3.1.3強化學習的要素58
3.2有限馬爾可夫決策過程59
3.2.1狀態與馬爾可夫性59
3.2.2什麼是有限馬爾可夫決策過程60
3.2.3收益與策略63
3.3求解MDP65
3.3.1貝爾曼方程與貝爾曼最優方程65
3.3.2價值疊代69
3.3.3策略評估74
3.3.4策略疊代77
3.3.5廣義策略疊代82
3.4本章實驗解析85
3.5本章小結90
3.6思考與練習90
第4章行動價值方法92
4.1行動價值與最優行動價值92
4.1.1行動價值92
4.1.2最優行動價值96
4.2蒙特卡洛方法99
4.3Q學習107
4.4DynaQ114
4.5使用監督學習方法推測最優行動價值的極限值118
4.6使用深度神經網路推測最優行動價值的極限值124
4.7本章實驗解析129
4.8本章小結136
4.9思考與練習136
第5章策略梯度方法138
5.1策略梯度基本方法138
5.2蒙特卡洛策略梯度方法142
5.2.1各個行動的蒙特卡洛策略梯度方法142
5.2.2單個行動的蒙特卡洛策略梯度方法147
5.2.3平移的蒙特卡洛策略梯度方法149
5.3行動評價方法154
5.4不完全觀測160
5.5本章實驗解析163
5.6本章小結168
5.7思考與練習169
附錄A實驗參考程式及注釋171
參考文獻231

相關詞條

熱門詞條

聯絡我們