面向Deep Web的大規模知識庫自動構建方法研究

面向Deep Web的大規模知識庫自動構建方法研究

《面向Deep Web的大規模知識庫自動構建方法研究》是依託蘇州大學,由崔志明擔任項目負責人的面上項目。

基本介紹

  • 中文名:面向Deep Web的大規模知識庫自動構建方法研究
  • 項目類別:面上項目
  • 項目負責人:崔志明
  • 依託單位:蘇州大學
項目摘要,結題摘要,

項目摘要

知識庫是語義Web、機器理解等技術的基礎,如何利用Web中半結構化數據自動構建大規模全領域知識庫是一個富有挑戰性的課題。Deep Web具有結構性好、信息量大、質量高等特點,是一個合適的知識獲取數據源,然而利用Deep Web自動構建知識庫還鮮有研究。本項目擬基於海量的Deep Web數據,自動構建一個大規模全領域知識庫。主要研究內容包括:①研究面向Deep Web的概念、實體、屬性和關係抽取方法,豐富知識庫的內容,擴展知識庫的規模;②研究基於聯合機器學習的關係發現方法,實現知識庫中節點間關係的自動發現,完善知識庫中的關係,提高知識庫的質量;③研究採用混合邏輯推理的關係驗證及不一致關係的消解策略,提高知識的可信度和可依賴性。本項目的研究為大規模知識庫自動構建提供新的解決方案,為知識獲取拓展新數據源,對促進Web智慧型套用的進一步發展具有重要意義。

結題摘要

Deep Web具有結構性好、信息量大、質量高等特點,是一個合適的知識獲取數據源。本項目圍繞面向Deep Web的概念、實體、屬性和關係抽取,關係驗證與不一致關係消解展開研究,將Deep Web數據轉換為語義知識並構建知識庫。針對目前數據集成中多源Deep Web數據抽取方法適應性差、對多類型數據抽取效率低的問題,提出了一種全新的基於Markov邏輯網的通用數據記錄抽取模型,該模型利用了基於視覺樹的自動實體抽取策略,擺脫了傳統DOM樹僅適用於單數據區域連續型數據的限制,實現對多數據區域非連續數據的抽取,該模型能夠容忍實體屬性的不完整性和矛盾性。針對Deep Web數據組成結構的特殊性,提出了基於LDA主題模型的Deep Web數據記錄概念抽取方法,該方法充分考慮了數據記錄中存在若干實體的事實,論證了實體分布信息對記錄中的單詞分布產生一定的影響,提出將實體分布融入到LDA主題模型中,可細化主題的分類,增加可區分性。針對多源知識的語義異構問題,提出了一種基於Markov邏輯網的異構知識語義映射方法,從全局考慮實體和實體關係的映射問題,利用實體類別和關係的內在聯繫,提高映射的準確性。針對從多個數據質量參差不齊的數據源獲取的知識存在不一致性問題,提出了一種基於主動遷移學習的實體解析方法,有效的識別來自多個數據源的結果頁面中重複實體。在本項目研究成果和研究所前期工作的基礎上,設計並實現了兩個面向Deep Web的知識獲取與集成的平台系統,目前系統整體運行效果良好,有效的驗證了本項目提出的面向Deep Web的知識獲取與集成方法的有效性。在項目實施過程中申請發明專利20項,其中4項已獲授權;獲得軟體著作權2項;在國內、外核心期刊和國際會議發表學術論文36篇,其中SCI、EI檢索36篇;成果通過省級鑑定1項;獲得蘇州市自然科學優秀論文獎1項;培養了多名科研骨幹人才,其中包括博士研究生3名、碩士研究生16名。

熱門詞條

聯絡我們