基於Web的概念實例及其屬性值提取方法研究

《基於Web的概念實例及其屬性值提取方法研究》是依託北京大學,由穗志方擔任負責人的面上項目。

基本介紹

  • 中文名:基於Web的概念實例及其屬性值提取方法研究
  • 項目負責人:穗志方
  • 項目類別:面上項目
  • 依託單位:北京大學
項目摘要,結題摘要,

項目摘要

本課題研究如何從Web中自動提取概念的實例及其屬性值。在概念的實例提取研究中,基於內涵-外延之間的內在關聯,提出了概念實例與屬性的同步提取方法,通過概念實例與屬性的相互評價,實現二者的同步互動提取;提出了基於關係圖的候選實例評估方法,充分利用Web信息的冗餘性實現候選概念實例的可信度評估。在實例屬性值的提取研究中,提出了基於網路百科的屬性值提取方法,實現有指導的屬性值自動提取。為擴大屬性值提取的覆蓋範圍,進一步提出基於簡單並列結構的屬性值提取方法和基於概念層級結構的屬性值提取方法。本課題旨在尋求基於Web的更為準確的概念實例及其屬性值的提取方法。在此過程中,探索如何利用Web的冗餘性、半結構化、網路百科等特點及資源優勢解決海量性、開放性、多源異構性帶來的問題。其研究經驗和研究成果一方面可直接套用於Web概念知識提取,也可為Web中其它知識的提取奠定基礎。

結題摘要

本課題旨在尋求基於Web的更為準確的概念實例及其屬性值的提取方法。在此過程中,探索如何利用Web的冗餘性、半結構化、網路百科等特點及資源優勢解決海量性、開放性、多源異構性帶來的問題。具體研究內容分為:概念實例提取、概念實例的屬性值提取與概念實例和屬性的同步提取三部分。在概念實例提取研究中:1、提出並實現了基於網頁中深度並列結構的概念實例提取方法,對網民們比較關注的概念,如“電影”、“歌曲”、“NBA”等,及一些購物網站提供的商品相關的概念,如筆記本品牌、汽車品牌、服裝品牌等具有較好的提取效果;2、設計並實現了一種混合多特徵的概念實例細分類方法,除了使用傳統的特徵外,還融入了詞聚類特徵、實例相關特徵和類別特異性特徵等三種新的特徵。通過對比不用特徵組合的實驗,這種混合多特徵的方法能夠大大提高實例細分類的結果。在概念實例的屬性值提取研究中:1、設計並實現了一種基於搜尋引擎的屬性值提取方法,從搜尋引擎返回的網頁摘要中提取屬性值。與相關研究相比較體現了本項目算法的有效性;2、提出了一種基於結構化數據的概念屬性提取方法,旨在將提取出的比較雜亂的屬性進行規範化條理化,有利於更好地使用這些屬性信息,並且還能夠輔助屬性值任務的提取;3、設計並實現了一種半指導的的產品屬性詞提取方法,在原有的自舉方法中融入一個自學習的分類器。實驗結果表明,本項目的方法能夠較大地提高實驗結果的準確率。在概念實例和屬性的同步提取研究中:1、設計並實現了一種基於並列結構的概念實例和屬性的同步提取方法,發現並提取具有並列結構的詞語,實驗結果表明,和單純的同步提取方法相比,本項目的方法在不降低準確率的基礎上,能大大提高提取結果的召回率;2、提出並實現了一種基於間接指導的關係提取算法,從實體對的識別、訓練時負例的構造和特徵空間的劃分及引入整合的準確率等多個角度提高了間接指導的關係提取準確率。本項目在國內外學術期刊和學術會議發表論文20篇,以本項目研究成果為重要組成部分的成果獲國家科技進步二等獎,並申請了國家技術發明專利和軟體著作權。本項目的研究經驗和研究成果一方面可直接套用於Web概念知識提取,也可為Web中其它知識的提取奠定基礎。

相關詞條

熱門詞條

聯絡我們