大規模語言模型：從理論到實踐

內容簡介

《大規模語言模型：從理論到實踐》詳細介紹了構建大語言模型的四個主要階段：預訓練、有監督微調、獎勵建模和強化學習。每個階段都有算法、代碼、數據、難點及實踐經驗的詳細討論。

《大規模語言模型：從理論到實踐》以大語言模型的基礎理論開篇，探討了大語言模型預訓練數據的構建方法，以及大語言模型如何理解並服從人類指令，介紹了大語言模型的套用和評估方法，為讀者提供了更全面的視野。

《大規模語言模型：從理論到實踐》旨在為對大語言模型感興趣的讀者提供入門指南，也可作為高年級本科生和研究生自然語言處理相關課程的補充教材。

圖書目錄

第1章緒論 1

1.1 大語言模型的基本概念 1

1.2 大語言模型的發展歷程 4

1.3 大語言模型的構建流程 8

1.4 本書的內容安排 11

第2章大語言模型基礎 13

2.1 Transformer結構 13

2.1.1 嵌入表示層 14

2.1.2 注意力層 16

2.1.3 前饋層 18

2.1.4 殘差連線與層歸一化 19

2.1.5 編碼器和解碼器結構 20

2.2 生成式預訓練語言模型GPT 25

2.2.1 無監督預訓練 26

2.2.2 有監督下游任務微調 27

2.2.3 基於HuggingFace的預訓練語言模型實踐 27

2.3 大語言模型的結構 33

2.3.1 LLaMA的模型結構 34

2.3.2 注意力機制最佳化 40

2.4 實踐思考 47

第3章大語言模型預訓練數據 49

3.1 數據來源 49

3.1.1 通用數據 50

3.1.2 專業數據 51

3.2 數據處理 52

3.2.1 質量過濾 52

3.2.2 冗餘去除 53

3.2.3 隱私消除 55

3.2.4 詞元切分 55

3.3 數據影響分析 61

3.3.1 數據規模 61

3.3.2 數據質量 64

3.3.3 數據多樣性 66

3.4 開源數據集 68

3.4.1 Pile 68

3.4.2 ROOTS 71

3.4.3 RefinedWeb 73

3.4.4 SlimPajama 75

3.5 實踐思考 79

第4章分散式訓練 80

4.1 分散式訓練概述 80

4.2 分散式訓練的並行策略 83

4.2.1 數據並行 84

4.2.2 模型並行 88

4.2.3 混合併行 96

4.2.4 計算設備記憶體最佳化 97

4.3 分散式訓練的集群架構 102

4.3.1 高性能計算集群的典型硬體組成 102

大規模語言模型：從理論到實踐

基本介紹

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條