面向網路百科的知識抽取研究

中文摘要

在Web2.0的推動下，網路百科作為群體智慧的平台得到了飛速發展，已經成為了一種取代傳統印刷版大百科全書的顛覆性創新。網路百科不僅為用戶提供了豐富的信息，也為計算機的智慧型套用系統提供了潛在的大規模的知識。但是，以普通文本為主的網路百科很難被計算系統自動使用，只有結構化的知識庫才能被智慧型系統有效利用。因此，根據信息抽取、網路百科發展現狀和面臨的挑戰，以提高網路信息服務的智慧型化水平為目標，結合網路百科知識在信息組織和語言表達等方面的特點，開展面向大規模網路百科的知識抽取研究，具有重要的套用價值和科學意義。本項目以維基百科、互動百科和中文百科等網路百科的開放信息為對象，針對信息抽取領域新出現的開放性、適應性和規模性需求，研究開放的、可擴展的、具有較高自動化程度的信息抽取方法，將網路百科中弱結構的文本信息轉換成可以被其他智慧型系統直接利用的結構化的知識，從而推動網路信息的智慧型處理。

結題摘要

隨著網際網路套用的發展，網路百科不僅為用戶提供了豐富的信息，也為計算機的智慧型套用系統提供了潛在的大規模的知識。因此，以提高網路信息服務的智慧型化水平為目標，開展面向大規模網路百科的知識抽取研究，具有重要的套用價值和科學意義。本項目以維基百科等網路百科的開放信息為對象，針對信息抽取領域新出現的開放性、適應性和規模性需求，研究開放的、可擴展的、具有較高自動化程度的知識抽取方法。本項目從文本信息抽取、語義關聯分析、百科知識質量分析與融合三方面開展研究。在文本信息抽取研究方面，為了適應網路百科這類開放的、大規模的知識抽取任務，提出了基於深度學習、對抗多任務學習和遠監督學習的實體抽取、實體關係抽取等方法。在語義關聯分析方面，針對結構化知識Linked Data數據集之間的語義關聯問題，提出了基於信息檢索方法的數據集間語義連結關係的發現方法、基於推薦技術的數據集語義同一性分析方法、RDF數據集主題建模方法。在百科知識質量分析與融合方面，分析了維基百科高質量知識條目的特徵，提出了自動度量維基百科知識條目的質量的方法和支持複雜SPARQL查詢的多源知識圖譜的融合方法。本項目的研究成果，將推動從信息到知識的轉化，進而提高網路信息智慧型處理水平。項目研究期間，項目組發表論文17篇，其中在Information Processing and Management、WWW、ECIR和WAIM等國際期刊和會議上發表10篇，在國核心心學術期刊和會議上發表7篇，到目前為止被SCI收錄1篇、EI 收錄9篇，2篇論文在國際會議上獲獎。上述論文已經被國內外同行多次引用。項目組成員獲得1項省部級科技進步二等獎。項目組培養博士後1名、博士生4名、碩士生7名。

面向網路百科的知識抽取研究

基本介紹

中文摘要

結題摘要

相關詞條

熱門詞條