中文知識圖譜(Chinese Knowledge Graph),最早起源於Google Knowledge Graph。知識圖譜本質上是一種語義網路。其結點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關係。中文知識圖譜的直接推動力來自於一系列實際套用,包括語義搜尋、機器問答、情報檢索、電子閱讀、線上學習等等。百度、搜狗以及復旦大學GDM實驗室相繼推出了其中文知識圖譜。
基本介紹
- 中文名:中文知識圖譜
- 外文名:Chinese Knowledge Graph
- 本質:語義網路
- 起源:Google Knowledge Graph
什麼是知識圖譜
- 允許用戶搜尋搜尋引擎知道的所有事物,人物或者地方,包括地標,名人,城市, 球隊,建築,地理特徵,電影,天體,藝術作品等等,而且能夠顯示關於你的查詢的實時信息。它是邁向下一代搜尋業務關鍵的第一步,使得搜尋智慧型化,根據用戶的意圖給出用戶想要的結果。
- 知識圖譜本質上是一種語義網路。其結點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關係
- 知識圖譜相對於傳統的本體和語義網路而言,實體覆蓋率更高,語義關係也更加複雜而全面
為什麼需要構建中文知識圖譜
- 網際網路上擁有豐富的資源。但是,大多數的資源都只能被人理解,而機器無法理解,如何讓機器像人一樣理解文本?
- 現有知識圖譜對中文支持不夠
- 為此,我們需要構建一個海量的中文知識圖譜,幫助機器理解文本
方法
研究架構
分散式爬蟲
- 網際網路上存在著豐富的資源,選擇合適的資源以及相應的爬取策略至關重要
- 單台電腦已經無法支持大規模的網頁爬取
- 網站可能存在著限制訪問次數、訪問出錯等問題
- 因此,提出了多任務、容錯、平衡、可設定優先權、多樣性的分散式爬蟲策略
知識抽取
- 數據來源豐富,包括百科全書類網站、地理位置信息(POI)網站、輸入法詞庫、搜尋引擎語料庫、音樂視頻小說等入口網站、電子商務網站等
- 從數據源中抽取出高質量的實體/概念集。包括實體抽取、實體映射(不同詞表達相同含義)、關係抽取以及實體質量評估。
知識集成
圖數據管理系統
套用介紹
百度知識圖譜
搜狗知立方
復旦GDM中文知識圖譜
- 輸入一個關鍵字後,搜尋引擎能夠準備的知道用戶搜尋的關鍵字含義,並給出相關的知識說明
- 提供知識查詢、問題查詢、別名搜尋、知識源合併等功能
- 為了更好的理解知識,採用了圖形化引擎進行展示,更好的表現了語義之間的關係
- 同時,將相關詞進行聚類,分成若干類,按類展示,並為每個類標註類標籤,這樣能更加清楚、直觀的理解實體
- 運用知識圖譜,對微博進行數據挖掘分析
- 傾聽民意,改善民生
- 研究成果已被解放日報、新民晚報等報紙刊登報導,並被多家網路媒體轉載