基於半監督結構化學習的跨語言映射研究

項目摘要

語料資源缺乏的小語種語言的自然語言處理技術受到語料資源的限制而難以發展高精度的統計方法。當前的跨語言映射方法局限於雙語對齊句對的詞對齊結果，雙語間標註的映射方法難以處理複雜對應關係、準確率低。為此，本課題提出了通過統計方法從語料中學習映射模型，並允許映射模型與目標模型彼此互相改進的跨語言映射框架。為了完成這一任務，本課題將結構化數據的自然語言處理任務的跨語言映射形式化為半監督結構化學習問題，利用半監督結構化學習方法，結合自然語言處理問題的任務特性，為跨語言映射問題提供新的解決方案。同時，本課題希望將語言的更抽象的屬性引入到跨語言映射的半監督學習框架中，而不僅限於詞對齊結果。這些抽象屬性既包括語言學符號及其關係，也包括通過雙語上下文統計得出的相似關係。這些屬性使得雙語語料中的更多信息可以得到利用，幫助提高跨語言映射方法的精度。

結題摘要

在許多自然語言處理任務中，往往受到語料資源的限制而難以發展高精度的統計方法。為了減少對標註數據的依賴，本項目提出了關於自然語言處理的若干半監督學習方法，主要研究內容包括：（1）將跨語言映射問題轉換為半監督結構化學習問題，並建立符合問題特點的模型；（2）對已有半監督方法在結構化數據上加以推廣，通過在新的問題表示空間上利用少量有標記數據進行參數細調，同時將隨機梯度下降思想引入到相關半監督學習框架中並對隨機梯度下降方法進行了改進；（3）將資源充分語言的相關知識以多種關聯形式遷移到新語言的知識學習中，改進了從可比較語料中抽取同義詞對的性能。在研究內容的第一方面，本項目分別進行了跨語言映射的半監督結構化學習框架和跨語言映射的噪聲可學習性問題及去噪算法的研究。提出了基於協同訓練的半監督跨語言映射算法和基於標籤傳播的半監督跨語言映射算法，實驗表明協同訓練算法在目標語言詞性標註的性能上達到81.14%，比同類最好算法提高了近2個百分點；而標籤傳播算法在詞性標註跨語言映射上性能從81.78%提升至83.28%。將二類分類問題的噪聲學習理論推廣到多類上，得到多類分類問題的噪聲可學習性理論。證明了多類分類任務的噪聲PAC可學習性和生成式一階序列標註模型勢函式的噪聲PAC可學習性，在此基礎上提出了基於置信度的協同訓練數據選擇和基於n元詞組相似度的去噪方法。在研究內容的第二方面，提出了一種基於豐富特徵的結構表示合成模型(Feature-rich Compositional Embedding Model，FCM)。該模型在ACE2005關係抽取任務測試集上取得了比基線系統高4%的性能，達到58.26%。提出了基於目標任務和語言模型的聯合訓練算法框架，該方法在短語嵌入學習上的實驗結果超過了有監督方法，取得了當時最好性能。在研究內容的第三方面，本項目提出了結合時序分布表示和詞嵌入表示的雙語詞典抽取方法、基於典型關聯分析（Canonical Correlation Analysis，CCA）的強制關聯方法，這兩種方法在相關實驗上均取得了遠超基線系統的性能。還提出了基於局部加權線性回歸方法的雙語詞典抽取的方法，其實驗結果相比基線系統增長了36.7%。本項目對於跨語言映射的半監督結構化學習框架及其套用、通用的自然語言結構表示的研究具有很好的參考價值。

基於半監督結構化學習的跨語言映射研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條