《強化學習實戰——從零開始製作AlphaGo圍棋(微課視頻版)》是2023年4月1日清華大學出版社出版的圖書,作者:劉佳。
基本介紹
- 中文名:強化學習實戰——從零開始製作AlphaGo圍棋(微課視頻版)
- 作者:劉佳
- 出版時間:2023年4月1日
- 出版社:清華大學出版社
- ISBN:9787302629696
- 定價:69.9 元
- 印次:1-1
- 印刷日期:2023.04.07
內容簡介,圖書目錄,
內容簡介
本書通過基礎理論和算法實踐相結合,循序漸進地介紹了人工智慧領域中的常見算法,並以圍棋遊戲作為媒介,全面、系統地介紹了人工智慧算法的實現方法,並通過Keras和PyTorch框架實踐人工智慧算法中的深度強化學習內容。全書共10章,分別介紹圍棋的基礎知識、如何製作圍棋軟體、傳統棋類智慧型算法、神經網路入門知識、如何實現圍棋智慧型體程式、通用化圍棋智慧型體程式、策略梯度算法、基於價值的深度學習網路(DQN)算法、ActorCritic算法、如何實踐AlphaGo和AlphaZero等知識,書中的每個知識點都有相應的實現代碼和實例。 本書主要面向廣大從事數據分析、機器學習、數據挖掘或深度學習的專業人員,從事高等教育的專任教師,高等學校的在讀學生及相關領域的廣大科研人員。
圖書目錄
目錄
第一部分計算機圍棋的基礎知識和傳統的智慧型算法
第1章圍棋: 黑白的世界
1.1什麼是圍棋
1.2圍棋的規則
1.3勝負的判定
1.4圍棋棋手的棋力
1.5計算機眼中的圍棋
1.5.1SGF檔案
1.5.2GTP
第2章實現一個圍棋軟體
2.1軟體版本
2.2圍棋軟體的組成
2.3佐布里斯特散列
2.4圍棋智慧型體
2.5圍棋的棋盤
2.6引入裁判
2.7讓智慧型體下棋
第3章傳統的棋類智慧型
3.1極小化極大算法
3.2AlphaBeta剪枝算法
3.3棋類局面評估
3.4蒙特卡羅模擬
3.4.1蒙特卡羅算法
3.4.2蒙特卡羅樹搜尋
3.4.3蒙特卡羅算法改進
3.4.4需要注意的問題
3.5監督學習
3.6傳統方法的討論
第二部分基於神經網路的機器學習
第4章機器學習入門
4.1人工神經網路
4.1.1神經元
4.1.2常見的激活函式
4.1.3多層感知器
4.1.4卷積神經網路
4.1.5反向傳播算法
4.1.6小批量訓練法
4.1.7殘差網路
4.1.8多層感知器的套用示例
4.1.9卷積網路對圖片進行多分類的套用示例
4.2最佳化神經網路
4.2.1訓練集、驗證集、測試集以及交叉驗證
4.2.2欠擬合與過擬合
4.2.3損失函式的正則化
4.2.4精確率和召回率的權衡
4.3其他人工智慧方法簡介
4.3.1K近鄰算法
4.3.2樸素貝葉斯法
4.3.3決策樹
4.3.4Boosting算法/Bagging算法
4.3.5支持向量機
4.3.6隨機場算法
4.3.7傳統智慧型算法所面臨的挑戰
第5章第一個圍棋智慧型體
5.1電子圍棋棋譜
5.2HDF5檔案結構
5.3數據模型
5.4獲取訓練樣本
5.5代碼演示
第6章通用化圍棋智慧型體程式
6.1在網路上發布圍棋智慧型體
6.2本地對戰
6.2.1計算機的圍棋語言
6.2.2圍棋的對弈圖形界面
6.2.3圍棋引擎
6.3讓圍棋智慧型體自己去網上下棋
第三部分強化學習
第7章策略梯度
第8章深度價值網路
8.1傳統的QLearning算法
8.1.1原始版QLearning
8.1.2原始版QLearning計算時的最佳化
8.1.3QLearning的變種Sarsa
8.1.4Sarsa的進化Sarsaλ
8.2在神經網路上套用DQN
第9章ActorCritic算法
第10章AlphaGo和AlphaZero
10.1AlphaGo的結構和訓練流程
10.2AlphaZero的結構與訓練流程
10.3可行的最佳化
附錄AKeras入門
附錄BPyTorch入門
附錄C反向傳播算法
C.1命名約定
C.2正文
C.3進一步討論
C.4拓展
附錄D不同地區的圍棋規則
D.1中國規則
D.2日本規則
D.3應氏規則
D.4紐西蘭規則
D.5美國規則
D.6智運會規則
D.7TrompTaylor規則