自然語言理解(2023年清華大學出版社出版的圖書)

自然語言理解(2023年清華大學出版社出版的圖書)

本詞條是多義詞,共2個義項
更多義項 ▼ 收起列表 ▲

《自然語言理解》是2023年清華大學出版社出版的圖書,作者是趙海。

基本介紹

  • 中文名:自然語言理解
  • 作者:趙海
  • 出版時間:2023年7月1日
  • 出版社:清華大學出版社
  • ISBN:9787302627784 
  • 定價:69 元
內容簡介,圖書目錄,

內容簡介

本書系統介紹自然語言處理(即自然語言理解)的經典和前沿技術內容,包括學科發展的簡要背景、基礎的建模方法和典型的語言處理任務。本書圍繞語言模型展開並貫穿其中,包括 n元語言模型、連續空間語言模型(詞嵌入)以及前沿的預訓練語言模型。
現代自然語言處理建立在機器學習的基礎之上。無論針對傳統機器學習還是針對現代深度學習,本書統一以結構化學習的脈絡展開,統一闡述典型的語言處理任務的普遍性機器學習建模方式,包括詞切分、序列標註以及樹結構解析。同時,本書以一種統一的觀點梳理機器學習和深度學習方法的要點,服務於自然語言處理任務的建模方法。最後,本書綜述了經典和前沿的語言處理任務:句法分析、語義分析、閱讀理解和大語言模型。以閱讀理解為代表的自然語言理解任務賦予傳統的學科自然語言理解新的內涵。

圖書目錄

目錄
第 1章自然語言處理概要 ....................................................................................1
1.1自然語言處理的概念和術語 .......................................................................1
1.1.1自然語言 .......................................................................................1
1.1.2自然語言處理與自然語言理解 .........................................................2
1.1.3計算語言學 ....................................................................................3
1.2自然語言處理的技術性挑戰 .......................................................................4
1.3機器翻譯 ..................................................................................................7
1.4語言處理層次 ...........................................................................................9
1.5套用型自然語言處理:人機對話系統 ........................................................16
1.6自然語言處理的學術出版體系 ..................................................................19
參考文獻........................................................................................................25
第 2章 n元語言模型.........................................................................................27
2.1機率論基礎.............................................................................................27
2.2語言模型用於語言生成 ............................................................................29
2.3 n元語言模型的工作方式及馬爾可夫假設 .................................................30
2.3.1 n元機制 .....................................................................................30
2.3.2馬爾可夫假設...............................................................................31
2.4評價指標:困惑度...................................................................................32
2.5 n元語言模型的平滑方法.........................................................................33
2.5.1 Laplace平滑(加一平滑)............................................................34
2.5.2 Good-Turing平滑 ........................................................................35
2.5.3 Jelinek-Mercer平滑 .....................................................................36
2.5.4 Katz平滑....................................................................................37
2.5.5 Kneser-Ney平滑 ..........................................................................37
2.5.6 Pitman-Yor語言模型 ...................................................................39
2.6非 n元機制的平滑方法 ...........................................................................41
2.6.1快取 ............................................................................................41
2.6.2跳詞 ............................................................................................41
2.6.3聚類 ............................................................................................42
2.7平滑方法的經驗結果 ...............................................................................43
2.8 n元語言模型的建模工具.........................................................................44
參考文獻........................................................................................................45
XII自然語言理解
第 3章語言編碼表示 .........................................................................................47
3.1獨熱表示 ................................................................................................47
3.2特徵函式 ................................................................................................49
3.3通用特徵模板 .........................................................................................52
3.4加權的獨熱表示:TF-IDF.......................................................................53
參考文獻........................................................................................................55
第 4章非監督的結構化學習 ...............................................................................56
4.1自然語言處理的方法構成.........................................................................56
4.2簡單任務:詞/子詞切分 ..........................................................................58
4.3切分算法 ................................................................................................58
4.3.1通用切分框架...............................................................................58
4.3.2全局優度最大化:Viterbi解碼算法 ...............................................59
4.3.3局部優度最大化:貪心解碼算法 ....................................................59
4.4優度度量 ................................................................................................60
4.4.1頻率 ............................................................................................60
4.4.2鄰接多樣性 ..................................................................................61
4.4.3分支熵.........................................................................................62
4.4.4描述長度增益...............................................................................63
4.4.5點互信息 .....................................................................................63
4.4.6學生 t測試..................................................................................64
4.5非監督分詞.............................................................................................64
4.5.1數據集和評估指標 ........................................................................64
4.5.2詞典預處理技巧 ...........................................................................65
4.5.3性能 ............................................................................................66
4.6推廣的位元組對編碼切分算法 .....................................................................67
參考文獻........................................................................................................67
第 5章結構化學習 ............................................................................................69
5.1機器學習的粒度和語言單元 .....................................................................69
5.2結構化學習的必要性 ...............................................................................72
5.3自然語言處理中的結構化學習任務 ...........................................................74
5.4退化為分類任務 ......................................................................................76
5.5結構分解 ................................................................................................78
5.6共時結構分解:圖模型 ............................................................................78
5.7歷時結構分解:轉移模型.........................................................................82
5.8兩類結構化分解方式的優劣 .....................................................................83
5.9結構化學習的簡化情形 ............................................................................84
參考文獻........................................................................................................85
第 6章結構上的標註任務 ..................................................................................86
6.1從結構標註到序列標註 ............................................................................86
6.2局部馬爾可夫模型...................................................................................88
6.3全局馬爾可夫模型和條件隨機場...............................................................90
6.3.1全局馬爾可夫模型 ........................................................................90
6.3.2馬爾可夫隨機場 ...........................................................................91
6.3.3條件隨機場 ..................................................................................92
6.4隱馬爾可夫模型 ......................................................................................95
6.4.1從馬爾可夫鏈到隱馬爾可夫模型 ....................................................95
6.4.2隱馬爾可夫模型的基本計算任務:機率估計 ...................................96
6.4.3隱馬爾可夫模型的訓練:參數估計.................................................99
6.4.4隱馬爾可夫模型的解碼:Viterbi算法............................................99
6.5自然語言處理中的結構標註任務............................................................. 100
6.5.1再標註的序列標註任務 ............................................................... 100
6.5.2詞性標註任務的隱馬爾可夫模型實現示例..................................... 102
6.5.3推廣的分詞建模:不等單元的結構分解 ........................................ 105
參考文獻...................................................................................................... 107
第 7章機器學習模型 ....................................................................................... 109
7.1機器學習模型的要素配置....................................................................... 109
7.2損失函式 .............................................................................................. 111
7.3 k近鄰方法 ........................................................................................... 116
7.4感知機 ................................................................................................. 119
7.5鉸鏈損失與支持向量機 .......................................................................... 124
7.5.1最大化間隔 ................................................................................ 125
7.5.2懲罰項導出的軟邊界................................................................... 128
7.5.3映射到高維空間 ......................................................................... 129
7.5.4核函式....................................................................................... 132
7.5.5支持向量機的訓練算法 ............................................................... 134
7.5.6多類支持向量機 ......................................................................... 136
7.5.7支持向量機工具包 ...................................................................... 136
7.5.8支持向量機總結 ......................................................................... 138
7.6交叉熵損失與最大熵模型....................................................................... 138
7.6.1最大似然估計:對數-線性模型 .................................................... 139
7.6.2最大熵原理 ................................................................................ 143
7.6.3平滑 .......................................................................................... 145
7.6.4最大熵模型的工具包................................................................... 146
7.7從神經元學習到神經網路....................................................................... 146
參考文獻...................................................................................................... 147
第 8章深度學習模型 ....................................................................................... 150
8.1表示學習 .............................................................................................. 152
8.2連續空間語言模型:詞嵌入或詞向量 ...................................................... 154
8.2.1連續空間語言模型 ...................................................................... 154
8.2.2連續空間語言模型的機器學習解釋............................................... 156
8.2.3 Word2Vec和 GloVe詞嵌入 ........................................................ 159
8.2.4評估詞向量 ................................................................................ 162
8.3神經網路的結構配置 ............................................................................. 167
8.3.1神經網路的拓撲連線方式 ............................................................ 168
3.3.2激活函式 ................................................................................... 170
8.4深度學習模型的訓練 ............................................................................. 175
8.4.1訓練目標:輸出表示和損失函式 .................................................. 175
8.4.2誤差反向傳播算法 ...................................................................... 178
8.4.3深度學習的訓練管理器 ............................................................... 179
8.5編碼器-解碼器建模 ............................................................................... 180
8.6編碼器架構:循環神經網路 ................................................................... 183
8.6.1循環神經網路的 BPTT訓練算法 ................................................ 185
8.6.2長短時記憶網路 ......................................................................... 186
8.7編碼器架構:卷積神經網路 ................................................................... 188
8.7.1卷積 .......................................................................................... 189
8.7.2池化 .......................................................................................... 190
8.7.3卷積神經網路的結構................................................................... 191
8.8編碼器架構:Transformer ..................................................................... 192
8.8.1自注意力機制............................................................................. 192
8.8.2 Transformer網路結構 ................................................................ 193
8.9編碼器比較:RNN、CNN和 Transformer.............................................. 196
8.10序列生成的解碼過程............................................................................ 196
8.11符號主義對陣聯結主義 ........................................................................ 199
8.12深度學習工具包 .................................................................................. 201
參考文獻...................................................................................................... 203
第 9章預訓練語言模型.................................................................................... 206
9.1從表示學習到自監督學習....................................................................... 206
9.2從 n元語言模型到預訓練語言模型 ........................................................ 207
9.3輸入單元管理 ....................................................................................... 211
9.4預訓練語言模型的自回歸解釋 ................................................................ 212
9.5以編輯操作定義自監督學習 ................................................................... 216
9.6採樣與預測目標的單元選擇 ................................................................... 217
9.7編碼器架構........................................................................................... 218
9.8預訓練語言模型方法的普適化 ................................................................ 220
9.9預訓練語言模型的強化策略 ................................................................... 221
9.9.1知識增強 ................................................................................... 222
9.9.2多模態預訓練語言模型 ............................................................... 222
9.9.3模型最佳化 ................................................................................... 224
9.10典型的預訓練語言模型 ........................................................................ 224
參考文獻...................................................................................................... 228
第 10章句法分析............................................................................................ 232
10.1句法分析概要...................................................................................... 233
10.2成分/短語句法分析 ............................................................................. 235
10.2.1喬姆斯基文法層次體系 ............................................................ 235
10.2.2上下文無關文法 ...................................................................... 237
10.2.3機率上下文無關文法................................................................ 242
10.3依存句法 ............................................................................................ 246
10.3.1帶中心詞標註的成分句法 ......................................................... 246
10.3.2依存結構 ................................................................................ 247
10.3.3成分/短語結構到依存結構的轉換 ............................................. 248
10.4句法標註語料:樹庫............................................................................ 250
10.5成分/短語句法分析算法....................................................................... 251
10.5.1 CYK算法 .............................................................................. 251
10.5.2 Earley算法 ............................................................................ 254
10.6依存句法分析算法 ............................................................................... 255
10.6.1基於圖模型的依存句法分析...................................................... 255
10.6.2基於轉換模型的依存句法分析 .................................................. 259
10.6.3非投影型依存分析 ................................................................... 261
10.7句法分析的深度學習方法改進 .............................................................. 264
10.8依存分析的序列到序列建模.................................................................. 266
10.9從容易優先分析到全局貪心分析 ........................................................... 267
10.10句法分析的經驗結果 .......................................................................... 270
參考文獻...................................................................................................... 272
第 11章語義角色標註 ..................................................................................... 279
11.1從語義分析到語義角色標註.................................................................. 279
11.2句法分析樹上的語義圖 ........................................................................ 281
11.3語義角色標註的規範和語料.................................................................. 283
11.4語義角色標註的建模方式 ..................................................................... 285
11.5句法特徵集成:傳統機器學習模型........................................................ 291
11.6句法編碼器:深度學習模型.................................................................. 292
11.7句法裁剪 ............................................................................................ 297
11.8統一建模成分和依存語義角色標註........................................................ 299
11.9語義角色標註中的句法角色變遷 ........................................................... 300
11.10語義角色標註的經驗結果 ................................................................... 303
參考文獻...................................................................................................... 304
第 12章機器閱讀理解 ..................................................................................... 307
12.1機器閱讀理解任務的類型和評價指標 .................................................... 308
12.2機器閱讀理解的深度學習建模 .............................................................. 310
12.2.1編碼器.................................................................................... 312
12.2.2解碼器.................................................................................... 314
12.3對話理解 ............................................................................................ 317
12.4面向推理的閱讀理解............................................................................ 319
12.5常識問答 ............................................................................................ 320
12.6開放域問答 ......................................................................................... 322
參考文獻...................................................................................................... 325
第 13章大語言模型及其前沿套用 .................................................................... 334
13.1腦計畫與預訓練語言模型 ..................................................................... 334
13.2從預訓練語言模型到大語言模型 ........................................................... 336
13.3從提示學習到思維鏈推理 ..................................................................... 343
13.4對話式大語言模型 ChatGPT ............................................................... 349
13.5知識邊界 ............................................................................................ 356
參考文獻...................................................................................................... 363
後記............................................................................................................ 366

相關詞條

熱門詞條

聯絡我們