自然語言處理導論

自然語言處理導論

《自然語言處理導論》是電子工業出版社出版的圖書,本書主要包含基礎技術、核心技術以及模型分析三個部分。

基本介紹

  • 中文名:自然語言處理導論
  • 作者:張奇、桂韜、黃萱菁
  • 出版時間:2023年8月
  • 出版社:電子工業出版社
  • 頁數:592 頁
  • ISBN:9787121460326
  • 定價:268.00 元
  • 開本:16 開
內容簡介,圖書目錄,作者簡介,

內容簡介

自然語言處理是人工智慧的重要方向之一,被譽為人工智慧皇冠上的“明珠”。《自然語言處理導論》主要包含基礎技術、核心技術以及模型分析三個部分。

圖書目錄

第1部分基礎技術
第1章緒論 2
1.1 自然語言處理的基本概念 2
1.1.1 自然語言處理簡史 2
1.1.2 自然語言處理的主要研究內容 5
1.1.3 自然語言處理的主要難點 7
1.2 自然語言處理的基本範式 10
1.2.1 基於規則的方法 11
1.2.2 基於機器學習的方法 12
1.2.3 基於深度學習的方法 14
1.2.4 基於大模型的方法 15
1.3 本書內容安排 16
第2章辭彙分析 18
2.1 語言中的辭彙 18
2.1.1 詞的形態學 18
2.1.2 詞的詞性 19
2.2 詞語規範化 23
2.2.1 詞語切分 23
2.2.2 詞形還原 24
2.2.3 詞幹提取 24
2.3 中文分詞 25
2.3.1 中文分詞概述 25
2.3.2 基於最大匹配的中文分詞算法 28
2.3.3 基於線性鏈條件隨機場的中文分詞算法 29
2.3.4 基於感知器的中文分詞算法 31
2.3.5 基於雙向長短期記憶網路的中文分詞算法 34
2.3.6 中文分詞評測方法 36
2.3.7 中文分詞語料庫 37
2.4 詞性標註 38
2.4.1 基於規則的詞性標註 39
2.4.2 基於隱馬爾可夫模型的詞性標註 40
2.4.3 基於卷積神經網路的詞性標註 42
2.4.4 詞性標註評測方法 44
2.4.5 詞性標註語料庫 45
2.5 延伸閱讀 46
2.6 習題 47
第3章句法分析 48
3.1 句法概述 48
3.1.1 成分語法理論概述 49
3.1.2 依存語法理論概述 51
3.2 成分句法分析 53
3.2.1 基於上下文無關語法的成分句法分析 54
3.2.2 基於機率上下文無關語法的成分句法分析 59
3.2.3 成分句法分析評測方法 67
3.3 依存句法分析 69
3.3.1 基於圖的依存句法分析 70
3.3.2 基於神經網路的圖依存句法分析 74
3.3.3 基於轉移的依存句法分析 79
3.3.4 基於神經網路的轉移依存句法分析 82
3.3.5 依存句法分析評測方法 85
3.4 句法分析語料庫 86
3.5 延伸閱讀 89
3.6 習題 90
第4章語義分析 91
4.1 語義學概述 91
4.1.1 辭彙語義學 92
4.1.2 句子語義學 96
4.2 語義表示 98
4.2.1 謂詞邏輯表示 99
4.2.2 框架表示 100
4.2.3 語義網路表示 102
4.3 分散式表示 103
4.3.1 詞分散式表示 104
4.3.2 句子分散式表示 114
4.3.3 篇章分散式表示 117
4.4 詞義消歧 119
4.4.1 基於目標詞上下文的詞義消歧算法 119
4.4.2 基於詞義釋義匹配的詞義消歧算法 122
4.4.3 基於詞義知識增強預訓練的詞義消歧算法 126
4.4.4 詞義消歧評測方法 128
4.4.5 詞義消歧語料庫 128
4.5 語義角色標註 132
4.5.1 基於句法樹的語義角色標註算法 132
4.5.2 基於深度神經網路的語義角色標註算法 135
4.5.3 語義角色標註評測方法 140
4.5.4 語義角色標註語料庫和語義角色標註評測 140
4.6 延伸閱讀 143
4.7 習題 144
第5章篇章分析 145
5.1 篇章理論概述 145
5.1.1 篇章的銜接 146
5.1.2 篇章的連貫 148
5.1.3 篇章的結構 149
5.2 話語分割 153
5.2.1 基於辭彙句法樹的統計話語分割算法 154
5.2.2 基於循環神經網路的話語分割算法 155
5.3 篇章結構分析 157
5.3.1 修辭結構篇章分析 157
5.3.2 淺層篇章分析 161
5.4 指代消解 167
5.4.1 基於表述對的指代消解算法 168
5.4.2 基於表述排序的指代消解算法 170
5.4.3 基於實體的指代消解算法 175
5.5 延伸閱讀 179
5.6 習題 180
第6章語言模型 181
6.1 語言模型概述 181
6.2 n 元語言模型 182
6.2.1 加法平滑 184
6.2.2 古德-圖靈估計法 184
6.2.3 Katz 平滑 185
6.2.4 平滑方法總結 187
6.3 神經網路語言模型 188
6.3.1 前饋神經網路語言模型 188
6.3.2 循環神經網路語言模型 189
6.4 預訓練語言模型 191
6.4.1 動態詞向量算法 ELMo 191
6.4.2 生成式預訓練語言模型 GPT 193
6.4.3 掩碼預訓練語言模型 BERT 195
6.4.4 序列到序列的預訓練語言模型 BART 199
6.4.5 預訓練語言模型的套用 201
6.5 大規模語言模型 203
6.5.1 基礎大模型訓練 205
6.5.2 指令微調 207
6.5.3 人類反饋 209
6.6 語言模型評測方法 210
6.7 延伸閱讀 210
6.8 習題 212
第2部分核心技術
第7章信息抽取 214
7.1 信息抽取概述 214
7.2 命名實體識別 216
7.2.1 非嵌套命名實體識別 217
7.2.2 嵌套命名實體識別 225
7.2.3 多規範命名實體識別 230
7.2.4 命名實體識別評測方法 233
7.2.5 命名實體識別語料庫 233
7.3 關係抽取 235
7.3.1 有監督關係抽取 236
7.3.2 遠程監督關係抽取 240
7.3.3 開放關係抽取 245
7.3.4 關係抽取評測方法 249
7.3.5 關係抽取語料庫 250
7.4 事件抽取 251
7.4.1 限定域事件抽取 251
7.4.2 開放域事件抽取 255
7.4.3 事件抽取評測方法 260
7.4.4 事件抽取語料庫 260
7.5 延伸閱讀 261
7.6 習題 262
第8章機器翻譯· 263
8.1 機器翻譯概述 263
8.1.1 機器翻譯的發展歷程 264
8.1.2 機器翻譯的現狀與挑戰 265
8.2 基於統計的機器翻譯方法 266
8.2.1 任務定義與基本問題 266
8.2.2 IBM 模型Ⅰ 270
8.2.3 IBM 模型Ⅱ 274
8.2.4 IBM 模型Ⅲ 275
8.2.5 IBM 模型Ⅳ 276
8.2.6 IBM 模型Ⅴ 277
8.3 基於神經網路的機器翻譯方法 278
8.3.1 循環神經網路翻譯模型 279
8.3.2 卷積神經網路翻譯模型 281
8.3.3 自注意力神經網路翻譯模型284
8.4 機器翻譯語料庫 288
8.5 延伸閱讀 290
8.6 習題 291
第9章情感分析 292
9.1 情感分析概述 292
9.1.1 情感模型 293
9.1.2 情感分析的主要任務 297
9.2 篇章級情感分析 300
9.2.1 基於支持向量機的篇章級情感分析 301
9.2.2 基於層次結構的篇章級情感分析 303
9.2.3 篇章級情感分析語料庫 305
9.3 句子級情感分析 307
9.3.1 基於詞典的句子級情感分析 308
9.3.2 基於遞歸神經張量網路的句子級情感分析 309
9.3.3 基於情感知識增強預訓練的句子級情感分析 310
9.3.4 句子級情感分析語料庫 312
9.4 屬性級情感分析 313
9.4.1 情感信息抽取 313
9.4.2 屬性級情感分類 319
9.4.3 屬性級情感分析語料庫 329
9.5 延伸閱讀 331
9.6 習題 331
第10章智慧型問答 332
10.1 智慧型問答概述 332
10.1.1 智慧型問答的發展歷程 333
10.1.2 智慧型問答的主要類型 334
10.2 閱讀理解 336
10.2.1 基於特徵的閱讀理解算法 337
10.2.2 基於深度神經網路的閱讀理解算法 340
10.2.3 閱讀理解語料庫 346
10.3 表格問答 347
10.3.1 基於特徵的表格問答方法 348
10.3.2 基於深度學習的表格問答模型 349
10.3.3 表格問答語料庫 350
10.4 社區問答 351
10.4.1 基於特徵的語義匹配算法 352
10.4.2 基於深度學習的語義匹配算法 353
10.4.3 社區問答語料庫 356
10.5 開放領域問答 357
10.5.1 基於檢索-閱讀理解架構的開放領域問答模型 358
10.5.2 基於端到端架構的開放領域問答模型 360
10.5.3 開放領域問答語料庫 362
10.6 延伸閱讀 363
10.7 習題 364
第11章文本摘要 365
11.1 文本摘要概述 365
11.1.1 文本摘要的發展歷程 365
11.1.2 文本摘要的主要任務 367
11.2 抽取式文本摘要 368
11.2.1 基於排序的方法 368
11.2.2 基於序列標註的方法 373
11.3 生成式文本摘要 377
11.3.1 序列到序列生成式文本摘要 378
11.3.2 抽取與生成結合式文本摘要 384
11.4 文本摘要評測 388
11.4.1 人工評測 389
11.4.2 自動評測 390
11.5 文本摘要語料庫 393
11.5.1 單文檔摘要語料庫 393
11.5.2 多文檔摘要語料庫 393
11.5.3 對話摘要語料庫 393
11.5.4 多模態文本摘要語料庫 394
11.5.5 跨語言文本摘要語料庫 394
11.6 延伸閱讀 394
11.7 習題 395
第12章知識圖譜 396
12.1 知識圖譜概述 396
12.1.1 知識圖譜的發展歷程 398
12.1.2 知識圖譜的研究內容 399
12.2 知識圖譜的表示與存儲 400
12.2.1 知識圖譜的符號表示 401
12.2.2 知識圖譜的向量表示 404
12.2.3 基於表的知識圖譜存儲 407
12.2.4 基於圖的知識圖譜存儲 410
12.3 知識圖譜的獲取與構建 413
12.3.1 屬性補全 415
12.3.2 實體連結 417
12.3.3 實體對齊 421
12.4 知識圖譜推理 426
12.4.1 基於符號邏輯的知識圖譜推理 427
12.4.2 基於表示學習的知識圖譜推理 430
12.5 知識圖譜問答 434
12.5.1 基於語義解析的知識圖譜問答 435
12.5.2 基於信息檢索的知識圖譜問答 437
12.5.3 基於深度學習的知識圖譜問答 441
12.5.4 知識圖譜問答語料庫 445
12.6 延伸閱讀 446
12.7 習題 447
第3部分模型分析
第13章模型穩健性 449
13.1 穩健性概述 449
13.1.1 穩健性的基本概念 450
13.1.2 穩健性的主要研究內容 451
13.2 數據偏差消除 452
13.3 文本對抗攻擊方法 454
13.3.1 字元級別的攻擊方法 455
13.3.2 詞級別的攻擊方法 456
13.3.3 句子級別的攻擊方法 458
13.3.4 後門攻擊 459
13.4 文本對抗防禦方法 463
13.4.1 基於對抗訓練的文本對抗防禦方法 463
13.4.2 基於表示壓縮的文本對抗防禦方法 465
13.4.3 基於數據增強的文本對抗防禦方法 466
13.4.4 對抗樣本檢測 468
13.5 模型穩健性評測基準 469
13.5.1 特定任務穩健性評測基準 469
13.5.2 模型穩健性通用評測基準 472
13.6 延伸閱讀 477
13.7 習題 478
第14章模型可解釋性 479
14.1 可解釋性概述 479
14.1.1 可解釋性的分類 480
14.1.2 解釋方法評估 481
14.2 解釋性分析方法 483
14.2.1 局部分析方法 483
14.2.2 全局分析方法 489
14.3 自然語言處理算法的解釋性分析方法 492
14.3.1 模型解釋性分析方法 492
14.3.2 數據解釋性分析方法 496
14.3.3 可解釋評估 498
14.4 延伸閱讀 500
14.5 習題 500
參考文獻 501
索引 564

作者簡介

張奇,復旦大學計算科學技術學院教授、博士生導師。主要研究方向是自然語言處理和信息檢索,聚焦自然語言表示、信息抽取、魯棒性和解釋性分析等任務。兼任中國中文信息學會理事、中國中文信息學會信息檢索專委會常務委員、中國人工智慧青年工作委員會常務委員、SIGIR Beijing Chapter組織委員會委員等。多次擔任ACL、EMNLP、COLING、全國信息檢索大會等重要國際、國內會議的程式委員會主席、領域主席、講習班主席等。近年來,承擔了國家重點研發計畫課題、國家自然科學基金、上海市科委等多個項目,在國際重要學術刊物和會議上發表論文150餘篇,獲得美國授權專利4項,作為第二譯者翻譯專著《現代信息檢索》。獲得WSDM 2014最佳論文提名獎、COLING2018 領域主席推薦獎、NLPCC 2019傑出論文獎、COLING 2022傑出論文獎。獲得上海市“晨光計畫”人才計畫、復旦大學“卓越2025”人才培育計畫等支持,獲得錢偉長中文信息處理科學技術一等獎、漢王青年創新一等獎、上海市科技進步二等獎、教育部科技進步二等獎、ACM上海新星提名獎、IBM FacultyAward等獎項。
桂韜,復旦大學自然語言處理實驗室副研究員、碩士生導師。研究領域為預訓練模型、信息抽取和魯棒模型。在高水平國際學術期刊和會議上發表論文40餘篇,主持國家自然科學基金、計算機學會、人工智慧學會的多個基金項目。獲錢偉長中文信息處理科學技術獎一等獎(2/5)、中國中文信息學會優秀博士論文獎、COLING2018 最佳論文提名獎、NLPCC 2019 傑出論文獎,入選第七屆“中國科協青年人才托舉工程”、上海市啟明星計畫。
黃萱菁,復旦大學計算機學院教授、博士生導師。主要從事人工智慧、自然語言處理和信息檢索研究。兼任中國中文信息學會理事,中國計算機學會自然語言處理專委會副主任,中國人工智慧學會女科技工作者委員會副主任,計算語言學學會亞太分會副主席,亞太信息檢索學會指導委員會委員。近年來,承擔了國家重點研發計畫課題、國家自然科學基金等多個項目,在國際重要學術刊物和會議上發表論文150餘篇。獲錢偉長中文信息處理科學技術獎、上海市育才獎、人工智慧全球女性學者、福布斯中國科技女性等多項榮譽。

相關詞條

熱門詞條

聯絡我們