內容簡介
人工智慧時代一種全新的技術——
AI Agent正在崛起。這是一種能夠理解自然語言並生成對應回復以及執行具體行動的人工智慧體。它不僅是內容生成工具,而且是連線複雜任務的關鍵紐帶。本書將探索Agent的奧秘,內容包括從技術框架到開發工具,從實操項目到前沿進展,通過帶著讀者動手做7個功能強大的Agent,全方位解析Agent的設計與實現。本書最後展望了Agent的發展前景和未來趨勢。
本書適合對Agent技術感興趣或致力於該領域的研究人員、開發人員、產品經理、企業負責人,以及高等院校相關專業師生等閱讀。讀者將跟隨咖哥和小雪的腳步,踏上饒有趣味的Agent開發之旅,零距離接觸GPT-4模型、OpenAI Assistants API、LangChain、LlamaIndex和MetaGPT等尖端技術,見證Agent在辦公自動化、智慧型調度、知識整合以及檢索增強生成(RAG)等領域的非凡表現,攜手開啟人工智慧時代的無限可能,在人機協作的星空中共同探尋那顆最閃亮的Agent之星!
圖書目錄
第1章 何謂Agent,為何Agent 001
1.1 大開腦洞的演講:Life 3.0 001
1.2 那么,究竟何謂Agent 003
1.3 Agent的大腦:大模型的通用推理能力 006
1.3.1 人類的大腦了不起 006
1.3.2 大模型出現之前的Agent 007
1.3.3 大模型就是Agent的大腦 008
1.3.4 期望頂峰和失望低谷 010
1.3.5 知識、記憶、理解、表達、推理、反思、泛化和自我提升 012
1.3.6 基於大模型的推理能力構築AI套用 015
1.4 Agent的感知力:語言互動能力和多模態能力 016
1.4.1 語言互動能力 016
1.4.2 多模態能力 016
1.4.3 結合語言互動能力和多模態能力 017
1.5 Agent的行動力:語言輸出能力和工具使用能力 017
1.5.1 語言輸出能力 017
1.5.2 工具使用能力 018
1.5.3 具身智慧型的實現 019
1.6 Agent對各行業的效能提升 019
1.6.1 自動辦公好助手 020
1.6.2 客戶服務革命 020
1.6.3 個性化推薦 020
1.6.4 流程的自動化與資源的最佳化 021
1.6.5 醫療保健的變革 021
1.7 Agent帶來新的商業模式和變革 022
1.7.1 Gartner的8項重要預測 023
1.7.2 Agent即服務 024
1.7.3 多Agent協作 025
1.7.4 自我演進的AI 026
1.7.5 具身智慧型的發展 026
1.8 小結 027
第2章 基於大模型的Agent技術框架 029
2.1 Agent的四大要素 029
2.2 Agent的規劃和決策能力 031
2.3 Agent的各種記憶機制 032
2.4 Agent的核心技能:調用工具 033
2.5 Agent的推理引擎:ReAct框架 035
2.5.1 何謂ReAct 035
2.5.2 用ReAct框架實現簡單Agent 038
2.5.3 基於ReAct框架的提示 040
2.5.4 創建大模型實例 043
2.5.5 定義搜尋工具 044
2.5.6 構建ReAct Agent 044
2.5.7 執行ReAct Agent 045
2.6 其他Agent認知框架 047
2.6.1 函式調用 047
2.6.2 計畫與執行 048
2.6.3 自問自答 048
2.6.4 批判修正 048
2.6.5 思維鏈 048
2.6.6 思維樹 048
2.7 小結 049
第3章 OpenAI API、LangChain和LlamaIndex 051
3.1 何謂OpenAI API 052
3.1.1 說說OpenAI這家公司 052
3.1.2 OpenAI API和Agent開發 055
3.1.3 OpenAI API的聊天程式示例 057
3.1.4 OpenAI API的圖片生成示例 063
3.1.5 OpenAI API實踐 065
3.2 何謂LangChain 067
3.2.1 說說LangChain 068
3.2.2 LangChain中的六大模組 073
3.2.3 LangChain和Agent開發 074
3.2.4 LangSmith的使用方法 075
3.3 何謂LlamaIndex 077
3.3.1 說說LlamaIndex 077
3.3.2 LlamaIndex和基於RAG的AI開發 078
3.3.3 簡單的LlamaIndex開發示例 081
3.4 小結 084
第4章 Agent 1:自動化辦公的實現——通過Assistants API和DALL·E 3模型創作PPT 085
4.1 OpenAI公司的Assistants是什麼 086
4.2 不寫代碼,在Playground中玩Assistants 086
4.3 Assistants API的簡單示例 090
4.3.1 創建助手 091
4.3.2 創建執行緒 095
4.3.3 添加訊息 097
4.3.4 運行助手 099
4.3.5 顯示回響 103
4.4 創建一個簡短的虛構PPT 105
4.4.1 數據的收集與整理 106
4.4.2 創建OpenAI助手 106
4.4.3 自主創建數據分析圖表 108
4.4.4 自主創建數據洞察 112
4.4.5 自主創建頁面標題 114
4.4.6 用DALL·E 3模型為PPT首頁配圖 115
4.4.7 自主創建PPT 116
4.5 小結 121
第5章 Agent 2:多功能選擇的引擎——通過Function Calling調用函式 122
5.1 OpenAI中的Functions 122
5.1.1 什麼是Functions 123
5.1.2 Function的說明文字很重要 124
5.1.3 Function定義中的Sample是什麼 124
5.1.4 什麼是Function Calling 126
5.2 在Playground中定義Function 127
5.3 通過Assistants API實現Function Calling 130
5.3.1 創建能使用Function的助手 131
5.3.2 不調用Function,直接運行助手 133
5.3.3 在Run進入requires_action狀態之後跳出循環 140
5.3.4 拿到助手返回的元數據信息 141
5.3.5 通過助手的返回信息調用函式 141
5.3.6 通過submit_tool_outputs提交結果以完成任務 143
5.4 通過ChatCompletion API來實現Tool Calls 147
5.4.1 初始化對話和定義可用函式 148
5.4.2 第一次調用大模型,向模型傳送對話及工具定義,並獲取回響 149
5.4.3 調用模型選擇的工具並構建新訊息 151
5.4.4 第二次向大模型傳送對話以獲取最終回響 153
5.5 小結 154
第6章 Agent 3:推理與行動的協同——通過LangChain中的ReAct框架實現自動定價 156
6.1 複習ReAct框架 156
6.2 LangChain中ReAct Agent 的實現 159
6.3 LangChain中的工具和工具包 160
6.4 通過create_react_agent創建鮮花定價Agent 162
6.5 深挖AgentExecutor的運行機制 166
6.5.1 在AgentExecutor中設定斷點 166
6.5.2 第一輪思考:模型決定搜尋 169
6.5.3 第一輪行動:工具執行搜尋 175
6.5.4 第二輪思考:模型決定計算 179
6.5.5 第二輪行動:工具執行計算 180
6.5.6 第三輪思考:模型完成任務 182
6.6 小結 185
第7章 Agent 4:計畫和執行的解耦——通過LangChain中的Plan-and-Execute實現智慧型調度庫存 186
7.1 Plan-and-Solve策略的提出 186
7.2 LangChain中的Plan-and-Execute Agent 190
7.3 通過Plan-and-Execute Agent實現物流管理 192
7.3.1 為Agent定義一系列進行自動庫存調度的工具 192
7.3.2 創建Plan-and-Execute Agent並嘗試一個“不可能完成的任務” 193
7.3.3 完善請求,讓Agent完成任務 200
7.4 從單Agent到多Agent 203
7.5 小結 204
第8章 Agent 5:知識的提取與整合——通過LlamaIndex實現檢索增強生成 205
8.1 何謂檢索增強生成 206
8.1.1 提示工程、RAG與微調 206
8.1.2 從技術角度看檢索部分的Pipeline 208
8.1.3 從用戶角度看RAG流程 209
8.2 RAG和Agent 210
8.3 通過LlamaIndex的ReAct RAG Agent實現花語秘境財報檢索 211
8.3.1 獲取並載入電商的財報檔案 211
8.3.2 將財報檔案的數據轉換為向量數據 211
8.3.3 構建查詢引擎和工具 213
8.3.4 配置文本生成引擎大模型 214
8.3.5 創建 Agent以查詢財務信息 214
8.4 小結 215
第9章 Agent 6:GitHub的網紅聚落——AutoGPT、BabyAGI和CAMEL 216
9.1 AutoGPT 217
9.1.1 AutoGPT簡介 217
9.1.2 AutoGPT實戰 218
9.2 BabyAGI 222
9.2.1 BabyAGI簡介 222
9.2.2 BabyAGI實戰 224
9.3 CAMEL 236
9.3.1 CAMEL簡介 236
9.3.2 CAMEL論文中的股票交易場景 237
9.3.3 CAMEL實戰 241
9.4 小結 248
第10章 Agent 7:多Agent框架——AutoGen和MetaGPT 250
10.1 AutoGen 250
10.1.1 AutoGen簡介 250
10.1.2 AutoGen實戰 253
10.2 MetaGPT 256
10.2.1 MetaGPT簡介 256
10.2.2 MetaGPT實戰 257
10.3 小結 263
附錄A 下一代Agent的誕生地:科研論文中的新思路 264
A.1 兩篇高質量的Agent綜述論文 264
A.2 論文選讀:Agent自主學習、多Agent合作、Agent可信度的評估、邊緣系統部署以及具身智慧型落地 266
A.3 小結 267
參考文獻 269
後記 創新與變革的交匯點 271
作者簡介
黃佳,筆名咖哥,新加坡科技研究局人工智慧研究員。他在 NLP、大模型、AI in MedTech、AI in FinTech 等領域積累了豐富的項目經驗。著有《GPT 圖解 大模型是怎樣構建的》《零基礎學機器學習》《數據分析咖哥十話:從思維到實踐促進運營增長》等圖書。同時他還在極客時間、CSDN 和深藍學院開設專欄和課程,主要有“LangChain 實戰課”“零基礎實戰機器學習”“AI 套用實戰課”“大模型套用開發實戰課”和“生成式預訓練語言模型:理論與實戰”等。他樂於保持好奇的心、擁抱變化、持續學習,希望藉助 AI 的“慧眼”和“注意力”來觀察世界,並以輕鬆幽默的方式分享知識,收穫本真的快樂。
專業書評
作為AI領域的青年作家,黃佳一直在腳踏實地地耕耘、探索、實踐,同時孜孜不倦地分享自己所學。希望他的新書能為技術人員和商業創新者帶來啟迪。
——中歐國際工商學院管理學教授,副教務長,米其林領導力和人力資源管理教席教授 李秀娟
我非常喜歡這本書在探索“何謂Agent”這一主題時所採用的新奇視角。黃佳先生通過生動的場景和深刻的比喻,將AI概念與生命進化緊密結合,使讀者能夠直觀地理解Agent的核心功能及其未來潛力。這種創新的敘述方式不僅揭示了技術背後的哲學原理,而且可以啟發我們思考AI在現代社會中如何扮演更加積極和建設性的角色。
——清華大學長聘教授,國家青年長江學者,國家973項目首席科學家 李丹
這本書全面介紹了Agent的設計理念和技術框架,帶領我們領略Agent技術的前沿進展。通過7個精心設計的實操項目,讀者可以親身體驗從理論到實踐的全過程。書中案例涵蓋從自動化辦公到智慧型調度,再到知識整合等多個領域,每一個案例都是對Agent技術潛力的深度挖掘,能進一步激發我們對AI時代無限可能的思考、探索和實踐。
——同濟大學特聘教授,AiDD峰會發起人 朱少民
探索AI的奇妙世界,從這本書開始!作者巧妙地將複雜的技術概念簡化,用直白的語言、清晰的邏輯、實用的案例,確保每一位新手都能跟上節奏,輕鬆上手!
——閱文集團技術副總經理,AIGC負責人 陳煒於
黃佳先生的新作為機器人企業套用大模型技術提供了寶貴的參考。在這本書中,他詳細闡述了如何利用大模型構建Agnt,並給出了一條切實可行的開發路徑。這本著作無疑將成為尋求AI創新的企業的推薦讀物。
——宇樹科技創始人兼CEO 王興興