面向維基百科的多粒度一體化信息抽取方法研究

項目摘要

維基百科擁有龐大高質量語料資源，抽取維基百科並形成結構化知識具有重要意義。本項目系統研究面向維基百科的信息抽取問題，提出多粒度一體化信息抽取方法，思路是把維基頁面按頁面結構分割成多個信息單元，並以信息單元為橫坐標，抽取的粒度知識為縱坐標，縱向進行多粒度抽取，橫向進行一體化抽取。具體從多粒度、一體化和信息組織三方面展開，研究內容包括：（1）多粒度信息抽取。針對每個信息單元，從粗粒度到細粒度進行分層抽取，重點解決細粒度知識抽取問題。（2）一體化信息抽取。針對每種類型的粒度知識，選取所有抽取該粒度知識的信息單元，充分考慮不同信息單元之間知識與結構等方面的參照作用，進行一體化研究，提高信息抽取效果。（3）抽取結果的信息組織。運用本體方法組織抽取結果，建立維基概念的層次網路，形成一套完整的知識體系。研究成果作為基礎資源進行信息服務，對自然語言處理相關領域的研究具有重要套用價值。

結題摘要

本課題面向維基百科進行信息抽取，研究了多粒度知識的抽取技術與組織方法，包括雙語辭彙、人名屬性、語義關聯關係、查詢分類關係等，並由此發展了一系列信息挖掘與知識組織方法，形成基礎語言知識庫。主要貢獻如下：①雙語辭彙挖掘：針對維基百科的領域覆蓋率和結構特徵，提出在維基百科頁面中自動獲取高質量中英文翻譯對的模板挖掘方法，能夠發現人工不容易察覺的複雜模板。②人名屬性挖掘：提出運用網路查詢日誌和維基百科知識構建人名知識庫，並套用於查詢分類。通過抽取查詢日誌中的人名實體，並結合百科知識充實實體屬性知識，形成包含屬性知識的人名知識庫。根據高質量的屬性模板和統計分類方法對查詢中的人名進行分類，在查詢推薦中依據不同人物分類知識庫進行分類推薦。③語義關聯關係挖掘：提出了一種基於維基百科的計算命名實體關聯度的方法，該方法充分利用了維基百科中的超連結信息，通過命名實體的維基百科頁面含有的共現超連結計算得到命名實體的關聯度．通過與人工標註的命名實體關聯度進行對比，該方法計算得到的命名實體的關聯度具有較高的準確率，計算結果與人們認知結果基本吻合。④查詢分類關係挖掘：查詢分類需要建立查詢意圖的分類知識體系，提出基於隨機遊走方式的查詢分類知識挖掘方法，首先抽取維基百科中的全部詞條與分類知識形成集合，並採用隨機遊走方式遍歷圖中所有概念結點，得到每個結點的機率分布，並將其轉化成分類權重，最終構建查詢知識連結圖。該方法藉助維基百科能夠解決數據稀疏問題。⑤知識組織：運用基於本體的分類知識管理方法，通過本體來表示分類知識，使得分類知識之間的關係以及知識的屬性能夠完整的表示出來。同時將本體的表示的分類知識利用OWL文檔進行存儲。項目研究成果包括：發表3篇EI期刊論文、14篇核心期刊論文，其中單篇論文引用率最高已達到13次；形成了基於維基百科的語言知識庫，可進行知識服務，具有很好的套用價值；申請人入選北京市青年拔尖人才計畫，指導的1名研究生獲得北京市優秀畢業研究生稱號。

面向維基百科的多粒度一體化信息抽取方法研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條