預訓練語言模型

預訓練語言模型

《預訓練語言模型》是電子工業出版社出版圖書,作者是邵浩,劉一烽。預訓練語言模型開啟自然語言處理新時代,剖析具有代表性的預訓練語言模型的實現細節|配代碼講解

基本介紹

  • 中文名:預訓練語言模型
  • 作者邵浩、劉一烽
  • 出版社:電子工業出版社
  • 出版時間:2021年5月
  • 頁數:216 頁
  • 定價:109 元
  • 開本:16 開
  • ISBN:9787121409998
內容簡介,圖書目錄,作者簡介,

內容簡介

詳細梳理了預訓練語言模型的基本概念和理論基礎,並通過實際代碼的講解,闡述了具有代表性的預訓練語言模型的實現細節

圖書目錄

第 1 章 預訓練語言模型簡介 1
1.1自然語言處理研究進展 1
1.2預訓練語言模型:為什麼要預訓練 4
1.2.1預訓練 4
1.2.2自然語言表示 5
1.2.3預訓練語言模型發展史及分類 8
第 2 章 預訓練語言模型基礎知識 13
2.1統計語言模型 14
2.2神經網路語言模型 17
2.3詞向量:解決相似單詞的距離問題 19
2.4RNN 和 LSTM 基礎 25
2.5基於 RNN 的語言模型 29
2.6ELMo:解決多義詞的表示問題 32
第 3 章 Transformer 與 Attention 37
3.1Transformer 的結構 37
3.2Self-Attention:從全局中找到重點 43
3.3位置編碼:為什麼有效 54
3.4單向掩碼:另一種掩碼機制 58
3.5代碼解讀:模型訓練技巧 61
3.5.1訓練技巧 1:歸一化層前置 62
3.5.2訓練技巧 2:梯度累積 64
第 4 章 GPT 系列模型 69
4.1GPT 的結構:基於 Transformer Decoder 69
4.2GPT 任務改寫:如何在不同任務中使用 GPT 71
4.3GPT 核心代碼解讀 74
4.4GPT-2:Zero-shot Learning 的潛力 79
4.4.1N-shot Learning 79
4.4.2核心思想 80
4.4.3模型結構 81
4.5GPT-3:Few-shot Learning 的優秀表現 82
4.5.1看詞造句 84
4.5.2語法糾錯 84
4.5.3GPT-3 的爭議 85
第 5 章 BERT 模型 87
5.1BERT:公認的里程碑 87
5.2BERT 的結構:強大的特徵提取能力 88
5.3無監督訓練:掩碼語言模型和下句預測 91
5.3.1MLM 91
5.3.2NSP 93
5.3.3輸入表示 94
5.4微調訓練:適應下游任務 95
5.4.1句對分類 95
5.4.2單句分類 96
5.4.3文本問答 97
5.4.4單句標註 99
5.5核心代碼解讀:預訓練和微調 100
5.5.1BERT 預訓練模型 101
5.5.2BERT 微調模型 110
5.6BERT 總結 117
第 6 章 後 BERT 時代的模型 119
6.1XLM:跨語言模型 119
6.1.1最佳化方向 119
6.1.2算法細節 120
6.1.3 小結 121
6.2MT-DNN:多任務融合 121
6.2.1最佳化方向 121
6.2.2算法細節 122
6.2.3 小結 124
6.3UniLM:獲得文本生成能力 124
6.3.1最佳化方向 124
6.3.2算法細節 125
6.3.3 小結 127
6.4SpanBERT:擴大掩碼範圍 127
6.4.1最佳化方向 127
6.4.2算法細節 128
6.4.3 小結 129
6.5XLNet:置換自回歸 130
6.5.1最佳化方向 130
6.5.2算法細節 130
6.5.3 小結 135
6.6ERNIE:知識圖譜 136
6.6.1最佳化方向 136
6.6.2算法細節 136
6.6.3 小結 139
6.7VideoBERT:多模態融合 139
6.7.1最佳化方向 139
6.7.2算法細節 140
6.7.3 小結 141
6.8ALBERT:參數共享 142
6.8.1最佳化方向 142
6.8.2算法細節 143
6.8.3 小結 145
6.9RoBERTa:更大的模型 145
6.9.1最佳化方向 145
6.9.2算法細節 146
6.9.3 小結 146
6.10BART:編解碼結構 146
6.10.1最佳化方向 146
6.10.2算法細節 147
6.10.3 小結 149
6.11T5:大一統模型 149
6.11.1最佳化方向 149
6.11.2算法細節 150
6.11.3 小結 153
6.12 總結 154
第 7 章 評測和套用 157
7.1評測任務 157
7.1.1通用評測任務 157
7.1.2領域評測任務 162
7.1.3其他評測任務 167
7.2模型套用:Transformers 代碼實戰 168
7.2.1 安裝 168
7.2.2快速上手指南 170
7.2.3微調訓練 172
7.2.4BERT 套用 175
7.3模型壓縮:量化、剪枝和蒸餾 179
7.3.1BERT 模型分析 179
7.3.2 量化 181
7.3.3 剪枝 181
7.3.4 蒸餾 182
7.3.5 結構無損壓縮 187
7.4模型擴展:多模態預訓練 188
7.4.1單流模型 189
7.4.2雙流模型 191
第 8 章 總結和展望 195
8.1預訓練語言模型的發展現狀 195
8.2預訓練語言模型的未來展望 199
參考文獻 203

作者簡介

日本國立九州大學工學博士,現就職於vivo。曾任狗尾草智慧型科技AI研究院院長,帶領團隊打造了AI虛擬生命產品的互動引擎。曾是上海對外經貿大學副教授,碩士生導師。任中國中文信息學會青年工作委員會委員,語言與知識計算專委會委員,中國計算機學會語音對話與聽覺專委會委員,自然語言處理專委會委員。發表論文50餘篇,獲專利10餘項,主持多項國家級及省部級課題,曾在聯合國、世界貿易組織、亞利桑那州立大學、香港城市大學等機構任訪問學者。
劉一烽
全國中學生物理競賽保送生,清華大學電子系碩士,曾獲學習成績優異獎學金。現就職於阿里巴巴淘系技術部,曾任vivo人工智慧研究院AI算法工程師,主要研究方向為強化學習、自然語言處理和視頻內容理解。

相關詞條

熱門詞條

聯絡我們