主要作者簡介
博士,復旦大學教授、
博士生導師、復旦大學知識工場實驗室創始人。曾擔任多家企業高級技術顧問與首席科學家。曾獲得十多個國家、省/市、企業級的研究獎項,曾承擔三十多項國家、省/市、企業級研發項目。在國際頂級學術會議與期刊(包括SIGMOD、VLDB、ICDE、IJCAI、AAAI、ACL、TKDE等)發表論文百餘篇,授權近20項知識圖譜專利。擔任多個國際期刊編委,百餘次為國際/國內學術機構/會議提供學術服務工作。領導構建了知識工場平台,發布了一系列知識圖譜包括CN-DBpedia、CN-Probase等。
內容簡介
知識圖譜是一種大規模語義網路,已經成為大數據時代知識工程的代表性進展。知識圖譜技術是實現機器認知智慧型和推動各行業智慧型化發展的關鍵基礎技術。知識圖譜也成為大規模知識工程的代表性實踐,其學科日益完善。
《知識圖譜:概念與技術》是一本系統介紹知識圖譜概念、技術與實踐的書籍。全書共5篇,由16 章構成,力求涵蓋知識圖譜相關的基本概念與關鍵技術。“基礎篇”介紹知識圖譜的基本概念、內涵與外延、歷史沿革、套用價值,以及相關的基礎知識。“構建篇”重點介紹大規模高質量知識圖譜的自動化構建技術,涵蓋辭彙挖掘、實體識別、關係抽取及概念圖譜構建、百科圖譜構建、眾包構建與質量控制等專題。“管理篇”系統地闡述了知識圖譜建模與存儲、查詢與檢索,以及圖數據管理系統。“套用篇”對於基於知識圖譜的關鍵套用技術展開介紹,包括搜尋與推薦、自然語言問答,以及基於知識圖譜的自然語言理解。“實踐篇”介紹知識圖譜實踐中的基本原則和有用實踐,初步討論了知識圖譜實踐中的開放性問題。
《知識圖譜:概念與技術》可作為高年級本科生、碩士生或者博士生的教材,也適合企業與行業智慧型化的從業人員閱讀。
目錄
第1篇 基礎篇
第1章 知識圖譜概述 2
1.1 知識圖譜的基本概念 2
1.1.1 知識圖譜的狹義概念 3
1.1.2 知識圖譜的廣義概念 8
1.2 知識圖譜的歷史沿革 10
1.2.1 知識圖譜溯源 10
1.3 知識圖譜的研究意義 16
1.3.1 知識圖譜是認知智慧型的基石 16
1.3.2 知識引導成為解決問題的重要方式之一 19
1.4 知識圖譜的套用價值 20
1.4.1 數據分析 20
1.4.2 智慧搜尋 21
1.4.3 智慧型推薦 22
1.4.4 自然人機互動 23
1.4.5 決策支持 23
1.5 知識圖譜的分類 24
1.5.1 知識圖譜中的知識分類 25
1.5.2 知識圖譜的領域特性 26
1.5.3 典型知識圖譜 30
本章小結 38
思考題 39
參考文獻 40
第2章 基礎知識 43
2.1 概述 43
2.2 知識表示 45
2.2.1 基本概念 45
2.2.2 知識圖譜的圖表示 47
2.2.3 知識圖譜的數值表示 49
2.2.4 其他相關知識表示 54
2.3 機器學習 64
2.3.1 機器學習的基本概念 65
2.3.2 深度學習概述 67
2.3.4 循環神經網路 71
2.4 自然語言處理 73
2.4.1 基本概念 74
2.4.2 文本的向量化表示 76
本章小結 78
思考題 79
參考文獻 80
第2篇 構建篇
第3章 辭彙挖掘與實體識別 84
3.1 概述 84
3.2 領域短語挖掘 86
3.2.1 問題描述 87
3.2.2 領域短語挖掘方法 88
3.2.3 統計指標特徵 91
3.3 同義詞挖掘 95
3.3.1 概述 95
3.3.2 典型方法 96
3.4 縮略詞抽取 101
3.4.1 縮略詞的概念與形式 101
3.4.2 縮略詞的檢測與抽取 103
3.4.3 縮略詞的預測 105
3.5 實體識別 109
3.5.1 概述 109
3.5.2 傳統的NER方法 110
3.5.3 基於深度學習的NER方法 114
3.5.4 近期的一些方法 120
本章小結 121
思考題 122
參考文獻 122
第4章 關係抽取 127
4.1 概述 127
4.1.1 關係抽取的問題和方法分類 128
4.1.2 關係抽取常用數據集 130
4.1.3 關係抽取評估方法 131
4.2 基於模式的抽取 133
4.2.1 基於字元模式的抽取 134
4.2.2 基於語法模式的抽取 135
4.2.3 基於語義模式的抽取 135
4.2.4 自動化模式獲取:自舉法(Bootstrapping) 136
4.2.5 基於模式抽取的質量評估 138
4.3 基於學習的抽取 139
4.3.1 基於監督學習的關係抽取 140
4.3.2 基於遠程監督學習的關係抽取 142
4.3.3 基於深度學習的關係抽取 144
4.4 開放關係抽取 150
4.4.1 TextRunner 151
4.4.2 ReVerb 152
4.4.3 Ollie 153
本章小結 154
思考題 156
參考文獻 157
第5章 概念圖譜構建 160
5.1 概述 160
5.1.1 常見的概念圖譜 163
5.1.2 概念圖譜的套用 166
5.2 isA關係抽取 168
5.2.1 基於線上百科的方法 169
5.2.2 基於模式的方法 170
5.2.3 中文概念圖譜的構建 172
5.3 isA關係補全 175
5.3.1 isA關係缺失的成因 176
5.3.2 基於isA
關係傳遞性的概念圖譜補全 177
5.3.3 基於協同過濾思想的概念圖譜補全 179
5.4 isA關係糾錯 181
5.4.1 錯誤的成因 182
5.4.2 基於支持度的糾錯 183
5.4.3 基於圖模型的糾錯 184
本章小結 185
思考題 186
參考文獻 187
第6章 百科圖譜構建 189
6.1 概述 189
6.1.1 什麼是百科圖譜 189
6.1.2 百科圖譜的意義 190
6.1.3 百科圖譜的分類 191
6.2 基於單源的百科圖譜構建 192
6.2.1 數據獲取 193
6.2.2 屬性抽取 195
6.2.3 關係構建 200
6.2.4 概念層級體系構建 201
6.2.5 實體分類 201
6.3 基於多源的百科圖譜融合 207
6.3.1 基於多個知識圖譜的融合方法 207
6.3.2 基於多源異構數據的融合方法 215
本章小結 216
思考題 217
參考文獻 217
第7章 知識圖譜的眾包構建 221
7.1 概述 221
7.2 知識型眾包的基本概念 223
7.3 知識型眾包研究的問題 226
7.3.1 What(對什麼任務進行眾包) 226
7.3.2 Whom(將任務交予誰完成) 229
7.3.3 How(如何完成眾包) 230
7.4 基於眾包的知識圖譜構建與精化 235
7.4.1 本體構建階段的人工介入 235
7.4.2 知識圖譜構建階段的人工介入 237
7.4.3 知識圖譜精化階段的人工介入 242
本章小結 244
思考題 245
參考文獻 246
第8章 知識圖譜的質量控制 250
8.1 概述 251
8.1.1 知識圖譜質量評估的維度 251
8.1.2 知識圖譜質量評估的方法 253
8.1.3 知識圖譜質量控制全周期概覽 254
8.2 缺失知識的發現與補全 260
8.2.1 類型補全 260
8.2.2 關係補全 263
8.2.3 屬性值補全 268
8.3 錯誤知識的發現與糾正 270
8.3.1 錯誤實體類型檢測 271
8.3.2 錯誤實體關係檢測 271
8.3.3 錯誤屬性值檢測 273
8.4 過期知識的更新 274
8.4.1 基於更新頻率預測的更新機制 275
8.4.2 基於時間標籤的更新機制 276
8.4.3 基於熱點事件發現的更新機制 277
本章小結 278
思考題 279
參考文獻 280
第3篇 管理篇
第9章 知識圖譜的建模與存儲 286
9.1 概述 286
9.2 知識圖譜的數據模型 287
9.2.1 知識圖譜的三元組模型 287
9.2.2 知識圖譜的圖模型 291
9.3 知識圖譜的物理存儲 296
9.3.1 知識圖譜數據的基本操作 296
9.3.2 知識圖譜的關係表存儲 298
9.3.3 知識圖譜的圖存儲 302
9.3.4 分散式計算環境下的知識圖譜數據存儲 305
本章小結 309
思考題 310
參考文獻 310
第10章 知識圖譜的查詢與檢索 314
10.1 概述 314
10.2 查詢語言:SPARQL 315
10.2.1 簡單查詢 315
10.2.2 SPARQL查詢機制及知識圖譜上的推理 321
10.3 子圖查詢 324
10.3.1 子圖查詢基本知識 324
10.3.2 近似子圖查詢 326
10.3.3 Top-k查詢 331
10.3.4 索引結構 334
10.4 其他查詢 335
10.4.1 路徑查詢 335
10.4.2 關鍵字查詢 337
10.4.3 社團搜尋 339
本章小結 342
思考題 343
參考文獻 343
第11章 圖數據管理系統 347
11.1 概述 347
11.2 知識圖譜與圖數據管理系統 348
11.2.1 大圖管理的挑戰 350
11.2.2 圖數據管理系統的重要性 352
11.2.3 圖管理系統管理知識圖譜的挑戰 354
11.3 圖數據管理系統的基本架構和設計原則 357
11.4 典型的圖數據管理系統 360
11.4.1 通用圖數據管理系統 361
11.4.2 知識圖譜專用圖數據管理系統 364
11.4.3 圖數據管理系統使用實例 366
本章小結 370
圖數據處理的相關資源 370
思考題 371
參考文獻 372
第4篇 套用篇
第12章 基於知識圖譜的語言認知 376
12.1 概述 377
12.1.1 語言理解的挑戰 377
12.1.2 語言理解需要知識圖譜 378
12.1.3 語言理解的任務 379
12.2 實體理解 380
12.2.1 基本模型 381
12.2.2 局部實體連結分數 382
12.2.3 全局實體連結分數 383
12.2.4 模型計算 384
12.2.5 短文本實體連結 390
12.2.6 跨語言實體連結 391
12.3 概念理解 393
12.3.1 單實例概念理解 393
12.3.2 多實例概念理解 395
12.3.3 短語概念理解 397
12.3.4 關係對概念理解 399
12.3.5 概念理解套用舉例 400
12.4 屬性理解 401
本章小結 403
思考題 404
參考文獻 404
第13章 基於知識圖譜的搜尋與推薦 407
13.1 概述 407
13.2 基於知識圖譜的搜尋 410
13.2.1 搜尋概述 410
13.2.2 搜尋意圖理解 413
13.2.3 目標查找 415
13.2.4 結果呈現 415
13.2.5 實體探索 416
13.3 基於知識圖譜的推薦 421
13.3.1 推薦的基本問題與挑戰 421
13.3.2 基於知識圖譜的物品畫像 424
13.3.3 基於知識圖譜的用戶畫像 429
13.3.4 基於知識圖譜的跨領域推薦 431
13.3.5 基於知識圖譜的可解釋推薦 434
本章小結 435
思考題 437
參考文獻 437
第14章 基於知識圖譜的問答 440
14.1 概述 440
14.1.1 問答系統 440
14.1.2 KBQA 443
14.2 基於模板的KBQA 451
14.2.1 基於模板的意圖識別 451
14.2.2 基於模板的屬性關聯 453
14.3 基於圖模型的KBQA 455
14.3.1 監督學習方法 455
14.3.2 無監督方法 457
14.4 基於深度學習的KBQA 459
14.4.1 表示學習 460
14.4.2 分類模型 461
14.4.3 生成模型 463
本章小結 464
思考題 465
參考文獻 466
第5篇 實踐篇
第15章 知識圖譜實踐 470
15.1 概述 470
15.1.1 知識圖譜套用的推動力 471
15.1.2 知識圖譜套用與產業現狀 473
15.1.3 知識圖譜實踐的系統工程觀念 474
15.1.4 知識圖譜助力行業智慧型化的演進路徑 476
15.2 知識圖譜系統 478
15.2.1 知識圖譜系統的外部環境 478
15.2.2 知識圖譜系統的關鍵要素 479
15.2.3 知識圖譜系統的典型架構 481
15.3 知識圖譜工程 487
15.3.1 基本原則 488
15.3.2 過程模型 491
15.3.3 可行性分析 493
15.3.4 實踐建議 497
本章小結 501
思考題 501
參考文獻 502
16.1 知識表示 503
16.1.1 與其他知識表示相聯合的語義增強 503
16.1.2 過程語義增強 504
16.1.3 時空語義增強 505
16.1.4 跨模態語義增強 506
16.2 知識獲取 506
16.2.1 低成本知識獲取 507
16.2.2 複雜知識的獲取 508
16.2.3 知識獲取中的人機協作與評測 510
16.3 知識套用 511
16.3.1 知識圖譜上的推理 511
16.3.2 符號知識增強機器學習 512
16.3.3 基於知識圖譜的可解釋人工智慧 513
16.3.4 知識圖譜的個性化問題 513
本章小結 514
思考題 515
參考文獻 515
內容架構
全書共五篇,由16章構成,其架構如圖1所示,力求涵蓋知識圖譜相關的基本概念與關鍵技術。
第1篇 基礎篇
包含前兩章。第1章介紹知識圖譜的基本概念、歷史沿革、研究意義、套用價值等。第2章介紹知識圖譜所必需的基礎知識,主要介紹與知識圖譜密切相關的知識表示、機器學習、自然語言處理的基本概念。
第2篇 構建篇
介紹知識圖譜的構建。大規模高質量知識圖譜的構建是整個知識圖譜技術落地的核心,因此也是整本書的重點。本篇的核心是第3章與第4章。在這兩章中,我們介紹了知識圖譜中知識獲取的兩個核心問題。其中一個是點的識別與建立,知識圖譜中的點可以是辭彙與實體,因此第3章重點介紹了辭彙挖掘與實體識別。有了知識圖譜中的點之後,建立點之間的關係是知識圖譜構建的核心問題。為此,第4章主要介紹了關係抽取(從文本中獲取關係實例)。
在此基礎上,第2篇進一步對兩類重要的知識圖譜,即概念圖譜(第5章)與百科圖譜(第6章)的構建展開了具體介紹。這兩類知識圖譜在知識圖譜技術發展歷程中有著突出地位,有很多實際套用。最後,第2篇再對其中的兩個專題:眾包構建(第7章)與質量控制(第8章)展開介紹。當前的知識圖譜構建還離不開人,如何把人力用好是第7章的主題。質量控制是知識圖譜構建的核心,第8章從質量視角再次盤點整個知識圖譜構建的全流程。
可以看出,我們在構建部分濃墨重彩,從構建的關鍵環節(辭彙挖掘、實體識別、關係抽取)、兩類重要知識圖譜的構建,以及構建的兩個專題等三個切面對知識圖譜構建進行了全方位的論述。其目的在於向讀者立體式地呈現知識圖譜構建的完整體系。這也從一個側面說明了知識圖譜知識體系的龐雜。
第3篇 管理篇
介紹知識圖譜的建模與存儲(第9章)、查詢與檢索(第10章)以及圖數據管理系統(第11章)。這一篇旨在從數據管理的角度系統闡述知識圖譜如何建模、如何存儲、如何查詢、如何檢索,以及如何實現系統性的高效管理。
第4篇 套用篇
把知識圖譜構建好、管理好的目的還是為了套用好。第4篇對於基於知識圖譜的套用技術展開介紹,包括搜尋與推薦(第13章)、自然語言問答(第14章)。這些套用本質上都依賴基於知識圖譜的自然語言理解,因此這一專題也單獨成章(第12章)。
第5篇 實踐篇
知識圖譜實踐有哪些基本原則和最佳實踐(第15章),以及在知識圖譜套用過程中還存在哪些挑戰(第16章),都會在這一篇中回答。