《自然語言理解與行業知識圖譜:概念、方法與工程落地》是機械工業出版社出版圖書。
基本介紹
- 中文名:自然語言理解與行業知識圖譜:概念、方法與工程落地
- 作者:王楠、趙宏宇、蔡月
- 出版社:機械工業出版社
- 出版時間:2022年1月1日
- 頁數:344 頁
- 開本:16 開
- 裝幀:平裝
- ISBN:9787111698302
內容簡介,作者簡介,圖書目錄,
內容簡介
本部分首先闡述自然語言理解的發展脈絡和理解邏輯,主要圍繞語言符號、處理體系、語義理解等進行探討,引出自然語言理解的自動分析原理和方法,包括自然語言特徵、統計學習、機器學習、深度學習、知識圖譜等。
第1章概述自然語言發展脈絡,描述了語言理解的研究現狀、商業形勢、認知突破口和未來預測。
第2章梳理語言理解的演變流程,介紹我們面臨的各類自然語言理解任務,最後給出語言理解的研究體系框架,引出自然語言理解的基礎——自然語言處理。
第3章重點介紹自然語言處理相關特徵工程和文本任務對應的各類算法模型、深度學習的前沿進展。語言處理需要考慮特徵構造(字、詞、句、章級別)和特徵表示,以利於後續自動處理。在特徵表示方面,從早的符號表示到現在的張量表示,形成統計學習的基礎。接下來結合統計學習框架,論述語言學習原理和語言模型,結合機率圖模型和其他機器學習算法,闡述這些常規算法在自然語言處理任務中的套用和效果。然後進一步討論深度學習的各類算法,對語言學習中的神經網路算法和新成果進行分析。最後探討現有處理方法的發展邊界,提出引入外源知識(知識圖譜)來提高認知能力的必要性。
第4章系統介紹知識圖譜,包括知識圖譜工程和知識圖譜智慧型。然後梳理國內外常見的通用知識圖譜,並進一步總結熱門行業的知識圖譜發展現狀。最後結合語言知識和知識圖譜的搭建流程,引入語義特徵,通過行業文本實例操作,幫助讀者了解語義理解的本質。
行業知識圖譜部分包含第5~8章。
本部分在上述基本自然語言處理方法講解的基礎上,繼續闡述行業知識圖譜搭建和行業套用的方法。目前從事自然語言理解的公司都將精力放在通用文本理解上,這些文本往往口語化嚴重、特徵雜亂、信息量不足,導致算法處理形成的最終產品的用戶體驗不佳。考慮到行業文本往往有一定規範,相對容易取得突破口,也有利於推動行業發展,所以我們選擇從行業文本出發,以專利文本實操作為樣板。
第5章介紹行業知識工程實踐,以專利行業為例,詳細地描述了一個行業知識工程建設的過程。首先基於自然語言處理和知識圖譜搭建方法,建設行業知識庫,包括術語庫、產品庫、技術庫、標準庫、規則庫等,進而開發行業主題分析模型、行業文本分類算法、相似度計算方法、價值評估方法和機器翻譯方法。
第6章介紹知識圖譜模組的搭建,包括關鍵字助手、語義搜尋、分級管理、高級分析、推薦和問答等。結合實際套用,探討知識圖譜在提高智慧型性方面的能力和效果。
第7章在前面知識工程和知識圖譜智慧型基礎上搭建智慧型套用平台,介紹了平台的各類功能組件,描述了自下而上的軟體服務封裝邏輯,進一步向上封裝為行業文本分析功能組件,包括檢索、分析、挖掘、管理、預警、運營等。讀者可以將這套思路在各行業進行實踐驗證,將上述組件和許可權、安全板塊集成為套用平台,搭建常態化文本分析運營平台,完成平台級別或各細分模組的商業產品落地。
第8章依託智慧型套用平台,結合實踐案例給出團隊的套用經驗,即通過四個行業案例來驗證平台的認知能力。
《自然語言理解與行業知識圖譜:概念、方法與工程落地》以自然語言理解和行業知識圖譜套用落地為目標,闡述了一個從0到1的行業文本理解案例。
《自然語言理解與行業知識圖譜:概念、方法與工程落地》為網際網路企業的智慧型平台構建提供了很好的案例參考,也為行業信息化從業者提供了從入門到進階的技術指導,適合作為自然語言處理、知識圖譜、計算機、人工智慧等領域從業者的學習指導書,也非常適合對自然語言處理、知識圖譜感興趣的學生和創業團隊閱讀。
作者簡介
王楠,北京大學博士,“創青春-中關村U30”2020年度優勝者。
趙宏宇,現就職於騰訊看點搜尋團隊,擔任算法研究員。
蔡月,清華-深圳灣實驗室聯合培養博士後。
圖書目錄
序一前言
符號表
第1章 自然語言之“理解”1
1.1 基本脈絡5
1.1.1 文字傳承6
1.1.2 機器處理8
1.1.3 理解困境9
1.2 商業曙光10
1.3 認知落腳點12
1.3.1 文本分析之錨13
1.3.2 走向智慧型之路14
1.3.3 步在何方14
1.4 思辨未來14
1.4.1 語言理解與語義知識的辨析14
1.4.2 行業知識圖譜構建問題15
小結15
參考文獻16
第2章 自然語言理解邏輯17
2.1 符號-連線-融合17
2.2 語言理解任務18
2.2.1 語法類任務20
2.2.2 語義類任務26
2.2.3 語用類任務34
2.3 語言理解體系42
小結43
參考文獻44
第3章 自然語言處理45
3.1 自然語言文本特徵46
3.1.1 通用語言文本特徵46
3.1.2 行業語言文本特徵47
3.1.3 語言文本特徵表示48
3.1.4 語言特徵選擇49
3.2 自然語言統計學習54
3.2.1 統計學習基礎54
3.2.2 語言語料庫65
3.2.3 語料採樣66
3.2.4 語言模型67
3.3 自然語言機器學習69
3.3.1 文本分類方法69
3.3.2 文本標註方法84
3.3.3 文本聚類方法90
3.3.4 文本生成方法95
3.3.5 文本匹配方法97
3.3.6 圖計算方法104
3.4 自然語言深度學習114
3.4.1 神經網路學習115
3.4.2 神經網路結構118
3.4.3 深度表示學習136
3.4.4 預訓練語言模型139
3.4.5 前沿與思考148
小結149
參考文獻149
第4章 知識圖譜150
4.1 語言知識與語言知識庫150
4.2 知識圖譜152
4.3 知識圖譜工程153
4.3.1 知識表示154
4.3.2 知識加工158
4.3.3 知識建模與計算166
4.3.4 知識存儲與查詢168
4.3.5 知識更新170
4.4 知識圖譜智慧型171
4.4.1 語義匹配171
4.4.2 172
4.4.3 問答對話174
4.4.4 推理決策175
4.4.5 區塊鏈協作176
4.5 通用知識圖譜177
4.5.1 百科知識圖譜177
4.5.2 常識知識圖譜179
4.5.3 中文類知識圖譜180
4.6 行業知識圖譜181
4.6.1 金融知識圖譜182
4.6.2 知識圖譜186
4.6.3 教育知識圖譜189
4.6.4 知識圖譜191
4.6.5 司法知識圖譜193
4.6.6 電商生活知識圖譜194
4.6.7 圖書文獻知識圖譜196
4.6.8 房地產知識圖譜198
小結199
第5章 行業知識工程實踐201
5.1 行業知識庫202
5.1.1 行業語料庫203
5.1.2 行業術語知識庫206
5.1.3 行業文本規則庫216
5.1.4 行業特徵欄位庫219
5.1.5 行業本體庫220
5.1.6 行業附圖庫225
5.1.7 行業產品庫227
5.1.8 行業標準庫230
5.1.9 套用知識庫232
5.2 行業模型算法庫233
5.2.1 文本匹配233
5.2.2 文本分類237
5.2.3 文本標註248
5.2.4 文本生成255
5.2.5 關聯圖計算260
5.2.6 價值評估261
5.3 標註、訓練和更新264
5.3.1 標註工具264
5.3.2 訓練框架267
5.3.3 知識更新269
小結269
第6章 行業知識圖譜模組271
6.1 關鍵字助手273
6.1.1 術語圖譜274
6.1.2 產品圖譜277
6.2 搜尋問答278
6.2.1 語義搜尋279
6.2.能搜尋281
6.2.3 事實型問答283
6.3 推理計算284
小結288
第7章 行業智慧型應台289
7.1台架構初探289
7.1.1 硬體拓撲架構290
7.1.2台系統架構290
7.1.能服務架構293
7.2台能組件293
7.2.1 文本檢索293
7.2.2 文本分析298
7.2.3 文本挖掘306
7.2.4 監控預警311
7.2.5 價值運營312
7.2.6 信息流管理313
7.3 許可權與管理314
7.3.1 架構與流程315
7.3.2台用戶管理316
7.3.3 管理318
小結318
第8章 行業文本智慧型套用320
8.1 高價值文本發現320
8.1.1 高價值文本定義320
8.1.2 高價值文本評價321
8.1.3 價值發現與價值運營321
8.2 成果分級分類管理322
8.2.1 成果分級323
8.2.2 成果分類323
8.3 新興方向預測324
8.4 技術背景調查326
小結328
附錄A 機率論基礎330
附錄B 資訊理論基礎339