《Reinforcement Learning for Sequential Decision and Optimal Control》是2023年由Springer出版的強化學習英文書籍。本書面向工程領域的科研人員和工程師,按照原理剖析、主流算法、典型示例的架構,介紹用於複雜系統動態決策及最優控制的強化學習方法。本書內容涵蓋了強化學習的基本概念、蒙特卡洛法、時序差分法、動態規劃法、函式近似法、策略梯度法、近似動態規劃、狀態約束的處理和深度強化學習等知識點,旨在為領域內的行業同仁提供一本適合入門學習和能力進階的參考書籍。
基本介紹
- 中文名:面向工業控制的強化學習理論與方法
- 外文名:Reinforcement Learning for Sequential Decision and Optimal Control
- 作者:李升波
- 題材:自動控制、人工智慧
- 語言:英語
- 出版時間:2023年4月6日
- 出版社:Springer
- 出版地:Singapore
- 頁數:462 頁
- ISBN:9789811977831
- 類別:書籍/專著
內容簡介,圖書目錄,內容圖片,出版背景,作者簡介,
內容簡介
全書總共包括11章。第1章介紹強化學習(Reinforcement Learning, RL)概況,包括發展歷史、知名學者、典型套用以及主要挑戰等。第2章介紹RL的基礎知識,包括定義概念、自洽條件、最優性原理與問題架構等。第3章介紹免模型RL的蒙特卡洛法,包括Monte Carlo估計、On-policy/Off-policy、重要性採樣等。第4章介紹免模型RL的時序差分法,包括它衍生的Sarsa、Q-learning、Expected Sarsa等算法。第5章介紹帶模型RL的動態規劃法,包括策略疊代、值疊代、通用疊代架構與收斂性證明等。第6章介紹間接型RL的函式近似法,包括常用近似函式、值函式近似、策略函式近似以及所衍生的Actor-critic架構等。第7章介紹直接型RL的策略梯度法,包括On-policy gradient、Off-policy gradient、它們的代價函式與最佳化算法等。第8章介紹帶模型的近似動態規劃(ADP)方法,包括無窮時域的ADP、有限時域的ADP、ADP與MPC的聯繫與區別等。第9章探討了狀態約束的處理手段,它與求解可行性、策略安全性之間的關係,以及Actor-Critic-Scenery三要素求解架構等。第10章介紹深度強化學習(DRL),即以神經網路為載體的RL,包括神經網路的原理與訓練,深度化挑戰以及DQN、DDPG、TD3、TRPO、PPO、DSAC等典型深度化算法。第11章介紹RL的各類拾遺,包括魯棒性、POMDP、多智慧型體、元學習、逆強化學習、離線強化學習以及訓練框架與平台等。
圖書目錄
- 10圖書目錄
內容圖片
強化學習(李升波)
- 12內容圖片
出版背景
自2000年以來,人工智慧的快速崛起正重塑人類社會的各個角落,有望引導工業文明進入第四次革命浪潮。以道路交通為例,汽車的智慧型化變革促使整個行業發生了翻天覆地的變化,包括駕駛輔助、自動駕駛、雲控協同等一系列新技術如雨後春筍般湧現,它們在提升地面車輛行駛性能的同時,也為解決交通事故、排放污染、城市擁堵等問題提供了一條可行的途徑。近年隨著人工智慧和自動控制的融合發展,以模仿人類大腦學習機制為原理的強化學習(RL,Reinforcement Learning)方法迅速進入人們的視野,它為大規模複雜動態系統的高性能決策與高實時控制提供了一套極具前景的解決方案。一個引人注目的成功案例是以Alpha Go為代表的圍棋智慧型:它利用深度強化學習算法實現圍棋智慧型的自進化,以超乎想像的速度進化出打敗人類專業棋手的能力,引發學術界和工業界的熱切關注。
儘管強化學習具有處理複雜任務的潛在優勢,但是這一方法的工程套用尚屬於起步階段。一個重要的原因是該方法既具有前瞻理論的複雜度,又具有工程實踐的挑戰性。該方法隸屬於最優控制、統計學習、最最佳化三者的交叉結合部,涉及的數理知識較深,內容涵蓋面較廣,學習周期較長,系統性掌握非一日之功。若是不能深入理解算法背後的核心理論,難以對算法和代碼進行針對性調整和修改,不能發揮強化學習應有的性能,這極大制約了其工程套用。為了應對上述挑戰,這本參考書的撰寫主要面向工程領域的科研工作者和技術人員,按照原理剖析、主流算法、典型示例的架構,介紹用於工業控制問題的強化學習理論及方法。所涉及的知識點包括馬爾科夫決策、蒙特卡洛學習、時序差分學習、函式近似法、策略梯度法、近似動態規劃、深度強化學習等。希望本書的出版將為領域內的行業同仁,包括本科生、研究生以及技術人員,提供一本體系較為完整、內容較為全面、講解循序漸進,且適合入門學習和能力進階的參考書籍。
作者簡介
李升波,清華大學車輛與運載學院教授,博士生導師。先後留學工作於史丹福大學,密西根大學和加州大學伯克利分校。主要從事自動駕駛汽車、強化學習、最優控制與估計等研究。他的研究提出了周期波動型節能操控、網聯車群分散式控制、類腦學習集成式決策等核心理論方法,突破了高級別智慧型汽車自主學習與數據閉環所面臨的一系列關鍵技術難題。獲中國自動化學會自然科學一等獎、中國汽車工業科技進步特等獎、國家科技進步二等獎、國家技術發明二等獎等。他是教育部青年科學獎的入選者,曾獲得國家高層次科技創新領軍人才、交通運輸行業中青年科技創新領軍人才、清華大學青年教師學術新人獎、清華大學青年教師教學優秀獎等。擔任AI國際評測組織MLPerf自動駕駛諮詢委員會委員、IEEE智慧型交通系統學會的理事會委員、中國汽車工程學會青工委首任主任、IEEE OJ-ITS高級副主編、IEEE TITS/IEEE ITSM/IEEE TIV副主編等。