中文知識圖譜

中文知識圖譜

中文知識圖譜(Chinese Knowledge Graph),最早起源於Google Knowledge Graph。知識圖譜本質上是一種語義網路。其結點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關係。中文知識圖譜的直接推動力來自於一系列實際套用,包括語義搜尋、機器問答、情報檢索、電子閱讀、線上學習等等。百度、搜狗以及復旦大學GDM實驗室相繼推出了其中文知識圖譜。

基本介紹

  • 中文名:中文知識圖譜
  • 外文名:Chinese Knowledge Graph
  • 本質:語義網路
  • 起源:Google Knowledge Graph
什麼是知識圖譜,為什麼需要構建中文知識圖譜,方法,研究架構,分散式爬蟲,知識抽取,知識集成,圖數據管理系統,套用介紹,百度知識圖譜,搜狗知立方,復旦GDM中文知識圖譜,

什麼是知識圖譜

  • 允許用戶搜尋搜尋引擎知道的所有事物,人物或者地方,包括地標,名人,城市, 球隊,建築,地理特徵,電影,天體,藝術作品等等,而且能夠顯示關於你的查詢的實時信息。它是邁向下一代搜尋業務關鍵的第一步,使得搜尋智慧型化,根據用戶的意圖給出用戶想要的結果。
  • 知識圖譜本質上是一種語義網路。其結點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關係
  • 知識圖譜相對於傳統的本體和語義網路而言,實體覆蓋率更高,語義關係也更加複雜而全面

為什麼需要構建中文知識圖譜

  • 網際網路上擁有豐富的資源。但是,大多數的資源都只能被人理解,而機器無法理解,如何讓機器像人一樣理解文本?
  • 現有知識圖譜對中文支持不夠
  • 為此,我們需要構建一個海量的中文知識圖譜,幫助機器理解文本

方法

研究架構

分散式爬蟲

  • 網際網路上存在著豐富的資源,選擇合適的資源以及相應的爬取策略至關重要
  • 單台電腦已經無法支持大規模的網頁爬取
  • 網站可能存在著限制訪問次數、訪問出錯等問題
  • 因此,提出了多任務、容錯、平衡、可設定優先權、多樣性的分散式爬蟲策略

知識抽取

  • 數據來源豐富,包括百科全書類網站、地理位置信息(POI)網站、輸入法詞庫、搜尋引擎語料庫、音樂視頻小說等入口網站、電子商務網站等
  • 從數據源中抽取出高質量的實體/概念集。包括實體抽取、實體映射(不同詞表達相同含義)、關係抽取以及實體質量評估。

知識集成

採用疊代的方式對不同來源的數據進行集成,將相同實體/概念的內容進行融合,特別是多義詞之間的融合。具體方法包括:首先找到明顯相同的實體/概念對,根據其屬性、分類以及相關詞,擴充找到更多的相同實體/概念對。依次循環,直至不能找到新的實體/概念對

圖數據管理系統

基於開源的Hadoop分散式檔案系統與分散式資料庫,作為大數據存儲的基礎
所有的操作都建立在HBase之上

套用介紹

百度知識圖譜

國內搜尋巨頭百度近日開始大範圍測試類似谷歌的“知識圖譜”功能。
此前用戶在百度搜尋某些公眾人物的關鍵字時,會出現該人物相關的資料,搜尋結果以“百科全書”式的方式顯示。而如今不只是搜尋熱門人物,當用戶搜尋地名、學科名或者流行的“事實“時,百度在左邊的搜尋結果里會給出常規的搜尋結果,而搜尋結果的右邊則展示跟關鍵字相關的中文百科內容,以及相關的搜尋連結。
中文知識圖譜
比如用戶搜尋“馬雲”時,會在搜尋的結果中呈現“馬雲”中文百科詞條、新浪微博地址、相關新聞以及人物圖片。而在右側的“知識圖譜”里則展示馬雲的簡介、主要成就以及“其他人還搜”的智慧型推薦。而如果用戶搜尋“歐巴馬”時,右側的知識圖譜展示得則更多。
同樣,如果用戶輸入地名如“松花江”、學科名如“哲學”以及其他名詞性的東西時都會觸發百度的“知識圖譜”功能。
不過百度並非第一家推出“知識圖譜”功能的搜尋引擎,去年5月,谷歌就正式推出了Knowledge Graph(知識圖譜)功能,而同樣擁有“知識圖譜”的公司還有2009年創立的搜尋引擎Wolfram Alpha。
而相較谷歌的“知識圖譜”而言不同的是,百度的“知識圖譜”搜尋結果並沒有完全劃到右側,而是部分內容在搜尋結果中全螢幕幕置頂展現,此外目前右側也僅用來展示百度自家的內容,如相關的中文百科詞條、相關的搜尋關鍵字。
對此有業內人士就表示,百度此次低調推出“知識圖譜”一是進一步改善搜尋結果,增強用戶粘度,使得百度在和谷歌以及360搜尋競爭時更有產品方面的優勢。同時也能藉此為百度旗下的產品如中文百科、百度新聞、百度音樂、愛奇藝、百度貼吧、百度圖片增加了海量的流量入口,減少了“肥水”流入外人田的幾率。

搜狗知立方

搜狗在其官方微博中宣稱:為了讓用戶獲取信息更簡單,搜狗搜尋發布全新的知識庫搜尋引擎――“知立方”。這是國內搜尋引擎行業中首家知識庫搜尋產品。
比如搜尋“張學友的電影”,搜狗搜尋會在結果上方顯示張學友的所有參演過的影片,右側則展示張學友的人物關係、電視劇、專輯等相關信息,幫助用戶更加立體和全面的了解張學友。
中文知識圖譜
再比如搜尋“范冰凍的身高”,一般的搜尋引擎會給出很多包含“范冰冰身高”的頁面,用戶需要逐一點擊尋找答案。搜狗知立方可以直接給出精準答案。
中文知識圖譜
要做到直接給出答案,除了要有結構化的海量數據知識庫為支撐外,語義理解也是其中重要一環。搜狗憑藉自然語言處理技術的多年積累,能夠更加智慧型的理解用戶的查詢意圖,給出精準的答案。
中文知識圖譜
據搜狗搜尋事業部總經理茹立雲介紹,搜狗知立方已經秘密研發一年有餘,而負責該產品研發的架構師則自博士在讀期間就從事相關領域的研究。目前知立方知識庫涉及實體已達億級,實體間的關係達到十億級,未來會逐漸套用到線上。
茹立雲介紹,搜狗知立方相比之前搜尋結果的優勢是:
1.更加精準。知立方可以智慧型分析用戶的查詢意圖,基於推理及計算能力,直接給出用戶想要的答案。
2.更加權威。知立方通過對全網頁面的分析和挖掘,保證知識庫數據的準確性,提供比知道類產品更加權威的答案。
3.更加全面。知立方可以給出完整的知識體系,使用戶更加全方位的了解知識點,同時還可以發現很多不知道的東西。比如搜尋“李娜”,可以發現叫“李娜”的除了知名的歌手和網球運動員外,還有演員、擊劍運動員和跳水運動員。
相關業內人士稱,搜狗知立方的上線代表國內搜尋引擎在知識庫領域的一次成功探索,是“語義網”自 2001 年提出之後,首次在國內搜尋引擎行業的成功套用。搜尋引擎誕生十多年來核心機制沒有實質性的變化,搜狗的此次成功突破,相信不久後國內主流搜尋引擎會相繼跟進與模仿。

復旦GDM中文知識圖譜

文本化展示
  • 輸入一個關鍵字後,搜尋引擎能夠準備的知道用戶搜尋的關鍵字含義,並給出相關的知識說明
  • 提供知識查詢、問題查詢、別名搜尋、知識源合併等功能
圖形化展示
  • 為了更好的理解知識,採用了圖形化引擎進行展示,更好的表現了語義之間的關係
  • 同時,將相關詞進行聚類,分成若干類,按類展示,並為每個類標註類標籤,這樣能更加清楚、直觀的理解實體
圖形化展示圖形化展示
深度閱讀
運用知識圖譜,對電子書中出現地詞語進行精確、全面解釋,挖掘詞語背後的知識,改善閱讀體驗
中文知識圖譜
輿情分析
  • 運用知識圖譜,對微博進行數據挖掘分析
  • 傾聽民意,改善民生
  • 研究成果已被解放日報、新民晚報等報紙刊登報導,並被多家網路媒體轉載
中文知識圖譜

相關詞條

熱門詞條

聯絡我們