跨領域信息抽取方法及其在數字圖書中的套用研究

中文摘要

在信息爆炸的背景下，利用信息抽取從半結構化和非結構化文本中抽取結構化信息已經成為資料庫、網際網路、知識發現、語義網以及信息檢索等多個領域的重要支撐技術之一。根據國內外研究現狀，信息抽取技術研究的核心問題之一是如何設計抽取方法，使其能快速適應知識主題和文本形式的變化，實現跨領域抽取。課題的研究將針對該問題，通過分解領域相關特徵，構建多層次特徵模型，實現一種跨領域信息抽取方法。基於該方法，實現一種以反饋方式疊代最佳化特徵選擇和組合的信息抽取系統。在此基礎上，課題還將以數字圖書為套用對象，結合圖書元數據和多層次特徵模型，通過領域相似度計算獲取更多具有代表性的樣本，提高抽取效果。課題的研究有望在信息抽取特徵模型理論研究方面取得突破，實現一種能快速適應領域變化的信息抽取方法以及一個有效的信息抽取系統。同時，研究套用面向數字圖書，促進基於數字圖書的知識服務的發展。在理論和套用兩個方面均有顯著的意義。

結題摘要

利用信息抽取從半結構化和非結構化文本中抽取結構化信息已經成為多個領域的重要支撐技術之一。項目組根據研究方案，嘗試分解領域相關特徵，獲取領域弱相關的子特徵，並構建多層次特徵模型。這個特徵模型中大多是領域無關或領域弱相關特徵，這在一定程度上可以解決當前信息抽取中的領域依賴性問題。同時，我們基於該特徵模型提出了特徵領域適應性評價標準和特徵組合的形式化表示方式。基於多層次特徵模型的跨領域信息抽取的核心是特徵選擇與組合。項目組通過研究提出了一種基於遺傳算法的特徵選擇算法。該算法結合遺傳算法的疊代思路，對於不同的抽取任務，為了得到能夠快速適應不同抽取任務的信息抽取模型，採用特徵選擇的方式疊代自動得到最終的特徵組合，並構建相應的抽取推理模型。同時，在疊代的過程中引入反饋機制來不斷修正特徵的領域初始適應度值。項目組針對特徵選擇算法在特徵向量空間初始化階段的冷啟動問題，探討了三種特徵向量初始化最佳化的方法，並圍繞如何保留最優特徵向量的問題進行了詳細的分析，提出了有效的特徵向量保留方法。針對網際網路數據幾何級增長的問題，研究並提出了改進特徵選擇算法的提速的可行性方法。我們研究了特徵向量空間的群體規模減半問題和嘗試了兩種特徵向量規模減半的方法。對於最優特徵保留的選擇上進行了相應的改進，目的是使最後留下的最優特徵向量組合是最小特徵組合。這不僅可以使特徵選擇算法的速度得到提升，同時更重要的是在實現信息系統抽取時，用儘可能少而精的特徵組合向量來做推理模型，可以在一定程度上降低信息抽取過程的時間複雜度。除此以外，項目組還在自然科學基金的支持下，研究了面向聚焦的web網頁獲取和信息抽取方法，面向稀疏樣本的聚焦式Web信息抽取技術研究和系統實現以及基於詞向量計算的關鍵字提取方法研究。目前已經在國內外學術會議和期刊上發表論文6篇，均被EI檢索；申請了專利2項，並已獲受理；培養碩士生6人，協助培養博士生2人。

跨領域信息抽取方法及其在數字圖書中的套用研究

基本介紹

中文摘要

結題摘要

相關詞條

熱門詞條