大語言模型：基礎與前沿

內容簡介

本書深入闡述了大語言模型的基本概念和算法、研究前沿以及套用，涵蓋大語言模型的廣泛主題，從基礎到前沿，從方法到套用，涉及從方法論到套用場景方方面面的內容。首先，本書介紹了人工智慧領域的進展和趨勢；其次，探討了語言模型的基本概念和架構、Transformer、預訓練目標和解碼策略、上下文學習和輕量級微調、稀疏專家模型、檢索增強型語言模型、對齊語言模型與人類偏好、減少偏見和有害性以及視覺語言模型等內容；最後，討論了語言模型對環境的影響。

本書內容全面、系統性強，適合高年級本科生和研究生、博士後研究人員、講師以及行業從業者閱讀與參考。

圖書目錄

第 1章大語言模型：辯論、爭議與未來發展方向 1

1.1 新時代的曙光 1

1.2 LLM有意識嗎 3

1.2.1 理解LLM的層次結構 3

1.2.2 意識是否需要碳基生物學 4

1.2.3 具身化與落地 4

1.2.4 世界模型 7

1.2.5 溝通意圖 8

1.2.6 系統性和全面泛化 9

1.3 未來發展方向 10

1.4 小結 13

第 2章語言模型和分詞 15

2.1 語言建模的挑戰 16

2.2 統計語言建模 16

2.3 神經語言模型 18

2.4 評估語言模型 19

2.5 分詞 19

2.5.1 按空格分割 20

2.5.2 字元分詞 21

2.5.3 子詞分詞 21

2.5.4 無分詞器 24

2.5.5 可學習的分詞 25

2.6 小結 27

第3章 Transformer 29

3.1 Transformer編碼器模組 29

3.2 編碼器-解碼器架構 31

3.3 位置嵌入 32

3.3.1 絕對位置編碼 32

3.3.2 相對位置編碼 34

3.4 更長的上下文 38

3.5 外部記憶 42

3.6 更快、更小的Transformer 45

3.6.1 高效注意力 45

3.6.2 條件計算 47

3.6.3 搜尋高效Transformer 48

3.6.4 在單個GPU上一天內訓練一個語言模型 49

3.7 推理最佳化 49

3.7.1 推測解碼 49

3.7.2 簡化Transformer 51

3.7.3 修剪 52

3.7.4 蒸餾 53

3.7.5 混合精度 54

3.7.6 高效擴展Transformer推理 54

3.8 小結 56

第4章預訓練目標和解碼策略 57

4.1 模型架構 57

4.2 預訓練目標 60

大語言模型：基礎與前沿

基本介紹

內容簡介

圖書目錄

熱門詞條