大語言模型：原理與工程實踐

內容簡介

《大語言模型：原理與工程實踐》用10 章對大語言模型進行全面且深入的介紹。首先對大語言模型的基本概念進行介紹。其次，從大語言模型的基礎技術、預訓練數據構建、預訓練技術等方面展開討論，幫助讀者深入了解大語言模型的構建和訓練過程。然後，詳細介紹有監督微調和強化對齊等技術，以及如何評估大語言模型的性能。外，介紹提示工程和工程實踐等方面的內容，幫助讀者了解大語言模型的套用和實際操作過程。最後，介紹如何從零開始微調大語言模型，輔以代碼示例，幫助讀者更好地套用這些技術。

通過閱讀本書，讀者可以獲得全面且深入的大語言模型的知識框架。無論您是研究人員、工程師，還是產品經理，都能從中獲得有價值的知識。

圖書目錄

1 解鎖大語言模型1

1.1 什麼是大語言模型·1

1.2 語言模型的發展·2

1.3 GPT系列模型的發展·3

1.4 大語言模型的關鍵技術·4

1.5 大語言模型的湧現能力·5

1.6 大語言模型的推理能力·5

1.7 大語言模型的縮放定律·6

參考文獻·7

2 大語言模型基礎技術·8

2.1 語言表示介紹·8

2.1.1 詞表示技術·8

2.1.2 分詞技術·9

2.2 經典結構Transformer·14

2.2.1 輸入模組·15

2.2.2 多頭自注意力模組·16

2.2.3 殘差連線與層歸一化·19

2.2.4 前饋神經網路·19

2.2.5 解碼器·19

2.3 預訓練語言模型·21

2.3.1 Decoder的代表：GPT系列·21

2.3.2 Encoder的代表：BERT·23

2.4 初探大語言模型·24

2.4.1 InstructGPT·24

2.4.2 LLaMA系列·28

參考文獻·30

3 預訓練數據構建·32

3.1 數據的常見類別及其來源·32

3.1.1 網頁數據·33

3.1.2 書籍數據·34

3.1.3 百科數據·34

3.1.4 代碼數據·34

3.1.5 其他數據·36

3.2 數據的預處理方式·36

3.2.1 正文提取·37

3.2.2 質量過濾·37

3.2.3 文檔去重·38

3.2.4 數據集淨化·39

3.3 常用數據集的完整構建方式 ·40

3.3.1 C4·40

3.3.2 MassiveText·40

3.3.3 RefinedWeb·41

3.3.4 ROOTS·42

3.4 難點和挑戰·43

3.4.1 數據收集的局限性·43

大語言模型：原理與工程實踐

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條