《基於多源信息融合的元數據自動抽取方法研究》是依託北京大學,由高良才擔任負責人的青年科學基金項目。
基本介紹
- 中文名:基於多源信息融合的元數據自動抽取方法研究
- 項目負責人:高良才
- 項目類別:青年科學基金項目
- 依託單位:北京大學
項目摘要,結題摘要,
項目摘要
如何從非結構化或半結構化文本中自動獲取元數據信息,即元數據抽取問題,是當前數字圖書館乃至整個信息服務領域的研究熱點與難點之一。現有方法僅依賴文檔本身的內容信息,難以逾越信息缺失與自身內容錯誤等障礙,不可避免地要引入大量人工審校,對抽取結果進行修正和補全。為此,本項目擬研究基於多源信息融合的元數據抽取方法,通過挖掘文檔和外部數據的關係,構建多來源元數據信息的蒐集與融合機制,充分發揮外部數據對抽取結果的修正與補償作用,實現元數據的準確、全面抽取,突破現有方法的局限性。具體地,本項目將圍繞種子元數據的生成、外部元數據的搜尋、多源元數據的融合等關鍵問題,研究基於組合最佳化策略的種子元數據抽取方法、具有自適應性的元數據搜尋策略、基於能量最小化模型的元數據信息融合算法、基於統計反饋的數據源質量評估體系等,為元數據抽取提供一個新的手段。其研究成果將大幅度提高元數據採集技術的自動化水平。
結題摘要
元數據是關於數據的數據,隨著大數據時代的來臨,如何從非結構化或半結構化數據中自動獲取其元數據信息,即元數據抽取問題,是當前大數據乃至整個信息服務領域的研究熱點之一。現有元數據抽取方法僅僅基於文檔自身內容信息,沒有考慮同一元數據在文檔之外(外部數據)可能多次出現的特點,難以逾越信息項缺失與自身內容錯誤等障礙,不可避免地要引入大量人工審校,對抽取結果進行修正和補全。為此,本項目將元數據抽取問題放在大數據環境之中, 研究基於多源信息融合的元數據抽取方法,通過挖掘文檔和外部數據的關係,構建多來源元數據信息的蒐集與融合機制,充分發揮外部數據對抽取結果的修正與補償作用,實現元數據的準確、全面抽取,突破現有方法的局限性。具體地,本項目主要研究了該問題的三個子問題,即種子元數據抽取、多源元數據搜尋、元數據融合。 關於種子元數據抽取,我們提出自頂向下和自底向上相結合的文檔元數據抽取方法,基於自適應的文本分塊策略,最佳化文檔元數據抽取結果;同時提出利用文檔內部“相同文檔元素樣式同質”的特點,提高包含元數據的頁面元素的定位與識別效果。多源元數據搜尋,是一個工程性較強同時又很困難的問題,因為不同的數據源,其接口、數據格式和訪問許可權等差異很大且動態變化。基於此特點,我們對主流的數據源進行了歸類整理,設計了基於靜態頁面分析的元數據識別方法和基於數據源接口動態監測的元數據抓取方法,並在此基礎上,建立了不同數據源的質量評估模型和匹配的搜尋策略,實現了運行穩定且數據豐富的元數據蒐集,為元數據融合提供了數據支持。元數據融合方面,我們研究了多源元數據的特徵選擇與融合方法,提出了基於最小化能量模型的元數據融合方法;同時將元數據融合結果反饋到種子元數據抽取過程和搜尋過程,通過疊代更新,最佳化最終的元數據抽取結果; 本項目研究過程中,我們發表了學術論文7篇,其中A類會議(計算機學會推薦會議列表)SIGIR論文 1篇,數字圖書館領域的頂級會議ACM&IEEE JCDL 1篇。本項目所發表的論文,目前已被國內外同行引用23次(根據Google Scholar統計)。在研究成果的產業化套用方面,本項目申請發明專利2項,部分研究成果已經套用於方正、斯邁爾等數字出版與知識服務企業。