基於遷移學習的自適應信息抽取技術研究

《基於遷移學習的自適應信息抽取技術研究》是依託哈爾濱工業大學,由鄭德權擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於遷移學習的自適應信息抽取技術研究
  • 依託單位:哈爾濱工業大學
  • 項目類別:面上項目
  • 項目負責人:鄭德權
項目摘要,結題摘要,

項目摘要

本項目嘗試基於遷移學習方法,解決傳統的信息抽取過程需要較多人工參與且依賴於大規模訓練語料和缺乏領域自適應性的問題,研究從現有的數據中遷移知識,用來幫助將來的學習或者其它領域的學習。通過探索相應的信息抽取方法,彌補領域資源匱乏和領域資源變遷的問題;系統地研究信息抽取的領域自適應方法,從而提高信息抽取的自動化程度;致力於研究信息抽取中的術語抽取、關係抽取、術語的共指消解等關鍵技術。本項目提出基於指示詞和連結分析的方法實現術語抽取;採用自底向上的規約和聚類方法得到關係類型並抽取關係實例;基於多特徵抽取與最佳化的共指消解策略;同時探索上述方法在自然語言處理具體套用中的實施策略,並通過相關任務檢驗和評價信息抽取方法。為信息檢索、自動文摘、文本分類、本體自動構建等各種智慧型信息處理任務提供重要的支持和借鑑。

結題摘要

本項目主要研究了三個層次的問題,(1) 遷移學習理論和方法的探索:提出一種弱指導的遷移學習方法,其核心是一種新的遷移知識獲取策略,並將其套用於自動文本分類中進行驗證,以打破傳統機器學習任務對於訓練集和測試集要求同一機率分布和特徵空間的假設,遷移知識通過學習一些特徵詞的語言學信息及統計信息,構成一種統一的表示形式,相關實驗在相同的特徵空間及不同的特徵空間進行,結果表明,遷移學習方法是有效的,在不同的測試環境下均取得了較理想的結果。同時探索了一種基於EM的直推式遷移學習方法,其核心是利用EM算法對隱含變數的極大似然估計能力,從已標註的源領域數據中獲取到遷移知識,然後藉助EM算法將遷移知識與未標註的目標領域數據結合,以協助目標領域任務的完成,實驗結果證明基於EM的術語抽取遷移學習方法能夠解決目標領域缺乏標註語料問題。(2) 信息抽取理論和技術的研究:提出基於深度置信網路(DBN)的中文名實體檢測與識別、關係抽取技術,其核心是利用DBN網路分別進行實體檢測、實體分類、實體的檢測與識別三個任務,探討了詞特徵與字特徵在這些任務中的優劣、淺層DBN網路神經元數量和深層DBN網路的深度對任務效果的影響,並且與其他機器學習的結果進行了比較,實驗結果表明,基於字特徵的結果在多數任務中均超過了詞特徵的結果,深層DBN網路比淺層DBN取得了較好的結果,且穩定性更好。此外,探索了一種改進的深度置信網路的模型訓練方式,一種是交替無監督和有監督訓練過程的DBN網路,一種是多層有監督訓練的DBN網路,實驗證明這兩種DBN網路都能提高深層DBN網路的效果,使其超越淺層的DBN網路,並且與基礎的深層網路結果相比,效果提高明顯。(3)信息抽取任務中的主題事件抽取與檢測技術探索:研究了一種基於時序特徵的特定事件抽取方法,其核心是基於時序特徵進行事件抽取的方法,結合先驗知識和SVM分類方法進行事件的檢測和分類,按照抽取出的事件的時間序列進行排序,基於地震和其他自然災害的事件抽取實驗表明,利用本文提出的方法獲得了較高的召回率和準確率。此外,探討了基於增量式模型的子主題事件動態追蹤技術,其核心是結合Single-Pass聚類方法、兼類思想以及動態增量思想,提出了一種動態增量式子主題探測與追蹤模型,該模型可以有效的對專題事件進行子主題分析,進而使人們能夠更直接和快速的了解主題事件的進展。

相關詞條

熱門詞條

聯絡我們