自然語言理解與行業知識圖譜：概念、方法與工程落地

內容簡介

　　本部分首先闡述自然語言理解的發展脈絡和理解邏輯，主要圍繞語言符號、處理體系、語義理解等進行探討，引出自然語言理解的自動分析原理和方法，包括自然語言特徵、統計學習、機器學習、深度學習、知識圖譜等。

　　第1章概述自然語言發展脈絡，描述了語言理解的研究現狀、商業形勢、認知突破口和未來預測。

　　第2章梳理語言理解的演變流程，介紹我們面臨的各類自然語言理解任務，最後給出語言理解的研究體系框架，引出自然語言理解的基礎——自然語言處理。

　　第3章重點介紹自然語言處理相關特徵工程和文本任務對應的各類算法模型、深度學習的前沿進展。語言處理需要考慮特徵構造（字、詞、句、章級別）和特徵表示，以利於後續自動處理。在特徵表示方面，從早的符號表示到現在的張量表示，形成統計學習的基礎。接下來結合統計學習框架，論述語言學習原理和語言模型，結合機率圖模型和其他機器學習算法，闡述這些常規算法在自然語言處理任務中的套用和效果。然後進一步討論深度學習的各類算法，對語言學習中的神經網路算法和新成果進行分析。最後探討現有處理方法的發展邊界，提出引入外源知識（知識圖譜）來提高認知能力的必要性。

　　第4章系統介紹知識圖譜，包括知識圖譜工程和知識圖譜智慧型。然後梳理國內外常見的通用知識圖譜，並進一步總結熱門行業的知識圖譜發展現狀。最後結合語言知識和知識圖譜的搭建流程，引入語義特徵，通過行業文本實例操作，幫助讀者了解語義理解的本質。

　　行業知識圖譜部分包含第5～8章。

本部分在上述基本自然語言處理方法講解的基礎上，繼續闡述行業知識圖譜搭建和行業套用的方法。目前從事自然語言理解的公司都將精力放在通用文本理解上，這些文本往往口語化嚴重、特徵雜亂、信息量不足，導致算法處理形成的最終產品的用戶體驗不佳。考慮到行業文本往往有一定規範，相對容易取得突破口，也有利於推動行業發展，所以我們選擇從行業文本出發，以專利文本實操作為樣板。

　　第5章介紹行業知識工程實踐，以專利行業為例，詳細地描述了一個行業知識工程建設的過程。首先基於自然語言處理和知識圖譜搭建方法，建設行業知識庫，包括術語庫、產品庫、技術庫、標準庫、規則庫等，進而開發行業主題分析模型、行業文本分類算法、相似度計算方法、價值評估方法和機器翻譯方法。

　　第6章介紹知識圖譜模組的搭建，包括關鍵字助手、語義搜尋、分級管理、高級分析、推薦和問答等。結合實際套用，探討知識圖譜在提高智慧型性方面的能力和效果。

　　第7章在前面知識工程和知識圖譜智慧型基礎上搭建智慧型套用平台，介紹了平台的各類功能組件，描述了自下而上的軟體服務封裝邏輯，進一步向上封裝為行業文本分析功能組件，包括檢索、分析、挖掘、管理、預警、運營等。讀者可以將這套思路在各行業進行實踐驗證，將上述組件和許可權、安全板塊集成為套用平台，搭建常態化文本分析運營平台，完成平台級別或各細分模組的商業產品落地。

　　第8章依託智慧型套用平台，結合實踐案例給出團隊的套用經驗，即通過四個行業案例來驗證平台的認知能力。

自然語言理解與行業知識圖譜：概念、方法與工程落地

基本介紹

內容簡介

作者簡介

圖書目錄

相關詞條

熱門詞條