《ChatGPT原理與架構:大模型的預訓練、遷移和中間件編程》是2023年機械工業出版社出版的圖書。
基本介紹
- 中文名:ChatGPT原理與架構:大模型的預訓練、遷移和中間件編程
- 出版時間:2023年12月1日
- 出版社:機械工業出版社
- ISBN:9787111739562
內容簡介,圖書目錄,
內容簡介
這是一本深入闡述ChatGPT等大模型的工作原理、運行機制、架構設計和底層技術,以及預訓練、遷移、微調和中間件編程的著作。它將幫助我們從理論角度全面理解大模型,從實踐角度更好地套用大模型,是作者成功訓練並部署大模型的過程復盤和經驗總結。
第1章介紹了ChatGPT等大模型的發展歷程、技術演化和技術棧等基礎知識;
第2~5章深入講解了Transformer的架構原理,並從GPT-1的生成式預訓練到GPT-3的稀疏注意力機制詳細描述了GPT系列的架構演進;
6~8章從底層技術實現的角度講解了大語言模型的訓練策略、數據處理方法,以及如何利用策略最佳化和人類反饋來進一步提升模型的表現;
第9~10章首先詳細講解了大語言模型在垂直領域的低算力遷移方法,並給出了醫療和司法領域的遷移案例,然後講解了大模型的中間件編程;
第11章對GPT的未來發展趨勢進行預測,探討數據資源、自回歸模型的局限性,以及大語言模型時代具身智慧型的可行路線。
圖書目錄
前言
第1章 人工智慧的新里程碑——ChatGPT / 1
1.1 ChatGPT的發展歷程 / 1
1.2 ChatGPT的能力 / 3
1.3 大語言模型的技術演化 / 6
1.3.1 從符號主義到連線主義 / 6
1.3.2 Transformer模型 / 7
1.3.3 無監督預訓練 / 10
1.3.4 有監督微調 / 11
1.3.5 人類反饋強化學習 / 11
1.4 大語言模型的技術棧 / 12
1.5 大語言模型帶來的影響 / 13
1.6 大語言模型復現的壁壘 / 16
1.6.1 算力瓶頸 / 16
1.6.2 數據瓶頸 / 17
1.6.3 工程瓶頸 / 18
1.7 大語言模型的局限性 / 19
1.8 小結 / 20
第2章 深入理解Transformer
模型 / 21
2.1 Transformer模型簡介 / 21
2.2 自注意力機制 / 23
2.2.1 自注意力機制的計算
過程 / 23
2.2.2 自注意力機制的本質 / 26
2.2.3 自注意力機制的優勢與局
限性 / 28
2.3 多頭注意力機制 / 29
2.3.1 多頭注意力機制的實現 / 29
2.3.2 多頭注意力機制的作用 / 31
2.3.3 多頭注意力機制的最佳化 / 32
2.4 前饋神經網路 / 33
2.5 殘差連線 / 35
2.6 層歸一化 / 36
2.7 位置編碼 / 38
2.7.1 位置編碼的設計與實現 / 38
2.7.2 位置編碼的變體 / 40
2.7.3 位置編碼的優勢與
局限性 / 41
2.8 訓練與最佳化 / 41
2.8.1 損失函式 / 41
2.8.2 最佳化器 / 42
2.8.3 學習率調整策略 / 42
2.8.4 正則化 / 43
2.8.5 其他訓練與最佳化技巧 / 44
2.9 小結 / 46
第3章 生成式預訓練 / 47
3.1 生成式預訓練簡介 / 47
3.2 GPT的模型架構 / 48
3.3 生成式預訓練過程 / 50
3.3.1 生成式預訓練的目標 / 52
3.3.2 生成式預訓練的誤差反向
傳播過程 / 53
3.4 有監督微調 / 55
3.4.1 有監督微調的原理 / 55
3.4.2 有監督微調的特定任務 / 56
3.4.3 有監督微調的步驟 / 58
3.5 小結 / 59
第4章 無監督多任務與零樣本
學習 / 61
4.1 編碼器與解碼器 / 61
4.2 GPT-2的模型架構 / 64
4.2.1 層歸一化 / 65
4.2.2 正交初始化 / 66
4.2.3 可逆的分詞方法 / 67
4.2.4 可學習的相對位置編碼 / 71
4.3 無監督多任務 / 72
4.4 多任務學習與零樣本學習的
關係 / 74
4.5 GPT-2的自回歸生成過程 / 76
4.5.1 子詞單元嵌入 / 76
4.5.2 自回歸過程 / 77
4.6 小結 / 79
第5章 稀疏注意力與基於內容的
學習 / 80
5.1 GPT-3的模型架構 / 81
5.2 稀疏注意力模式 / 83
5.2.1 Sparse Transformer的
特點 / 83
5.2.2 局部帶狀注意力 / 85
5.2.3 跨層稀疏連線 / 85
5.3 元學習和基於內容的學習 / 86
5.3.1 元學習 / 87
5.3.2 基於內容的學習 / 87
5.4 概念分布的貝葉斯推斷 / 90
5.4.1 隱式微調 / 90
5.4.2 貝葉斯推斷 / 93
5.5 思維鏈的推理能力 / 95
5.6 小結 / 99
第6章 大語言模型的預訓練
策略 / 100
6.1 預訓練數據集 / 100
6.2 預訓練數據的處理 / 102
6.3 分散式訓練模式 / 104
6.3.1 數據並行 / 105
6.3.2 模型並行 / 106
6.4 分散式訓練的技術路線 / 110
6.4.1 Pathways / 111
6.4.2 Megatron-LM / 113
6.4.3 ZeRO / 116
6.5 訓練策略案例 / 120
6.5.1 訓練框架 / 120
6.5.2 參數穩定性 / 120
6.5.3 訓練設定的調整 / 121
6.5.4 BF16最佳化 / 121
6.5.5 其他因素 / 122
6.6 小結 / 123
第7章 近端策略最佳化算法 / 124
7.1 傳統的策略梯度方法 / 125
7.1.1 策略梯度方法的基本
原理 / 125
7.1.2 重要性採樣 / 127
7.1.3 優勢函式 / 128
7.2 Actor-Critic算法 / 129
7.2.1 Actor-Critic算法的基本
步驟 / 130
7.2.2 值函式與策略更新 / 131
7.2.3 Actor-Critic算法的問題與
挑戰 / 131
7.3 信任域策略最佳化算法 / 132
7.3.1 TRPO算法的目標 / 132
7.3.2 TRPO算法的局限性 / 133
7.4 PPO算法的原理 / 134
7.5 小結 / 137
第8章 人類反饋強化學習 / 138
8.1 強化學習在ChatGPT疊代中的
作用 / 138
8.2 InstructGPT訓練數據集 / 140
8.2.1 微調數據集的來源 / 141
8.2.2 標註標準 / 142
8.2.3 數據分析 / 143
8.3 人類反饋強化學習的訓練
階段 / 145
8.3.1 有監督微調階段 / 145
8.3.2 獎勵建模階段 / 147
8.3.3 強化學習階段 / 148
8.4 獎勵建模算法 / 149
8.4.1 算法思想 / 149
8.4.2 損失函式 / 150
8.5 PPO算法在InstructGPT中的
套用 / 151
8.6 多輪對話能力 / 153
8.7 人類反饋強化學習的必要性 / 154
8.8 小結 / 156
第9章 大語言模型的低算力領域
遷移 / 157
9.1 指令自舉標註 / 157
9.2 人工智慧反饋 / 161
9.3 低秩自適應 / 163
9.3.1 模型訓練與部署 / 164
9.3.2 秩的選擇 / 165
9.4 量化:降低部署的算力要求 / 166
9.5 SparseGPT剪枝算法 / 168
9.6 開源大語言模型的低算力遷移
案例 / 170
9.6.1 基座模型 / 170
9.6.2 自舉指令微調的羊駝
系列 / 171
9.6.3 中文解決方案 / 172
9.6.4 醫療領域的遷移實例 / 174
9.6.5 司法領域的遷移實例 / 175
9.7 小結 / 178
第10章 中間件編程 / 180
10.1 補齊短板—LangChain恰逢
其時 / 180
10.2 多模態融合中間件 / 184
10.2.1 任務規劃 / 185
10.2.2 模型選擇 / 187
10.2.3 任務執行 / 188
10.2.4 回響生成 / 189
10.3 AutoGPT自主代理與任務
規劃 / 189
10.4 中間件框架的競品 / 192
10.5 小結 / 194
第11章 大語言模型的未來之路 / 195
11.1 強人工智慧之路 / 195
11.2 數據資源枯竭 / 198
11.3 自回歸模型的局限性 / 200
11.4 具身智慧型 / 202
11.4.1 具身智慧型的挑戰 / 203
11.4.2 PaLM-E / 204
11.4.3 ChatGPT for Robotics / 205
11.5 小結 / 210