《自然語言處理中基於矩陣的結構化學習研究》是依託華東師範大學,由吳苑斌擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:自然語言處理中基於矩陣的結構化學習研究
- 項目類別:青年科學基金項目
- 項目負責人:吳苑斌
- 依託單位:華東師範大學
項目摘要,結題摘要,
項目摘要
隨著網際網路的發展, 自然語言處理成為整理和分析大規模文本數據的核心和基礎. 結構化學習作為一種高效, 實用的機器學習方法, 在自然語言處理中具有廣泛的套用, 也是近年來的研究熱點之一. 但在目前的結構化學習中, 通常將模型的特徵表示成為向量. 這樣的表示方式存在著信息丟失, 不能有效利用先驗知識和實際問題的特性等問題. . 在本項課題研究中, 我們將關注自然語言處理中的特徵表示方法, 並在其基礎上建立新的結構化學習模型, 研究相應的參數學習和解碼算法, 併力爭提高自然語言處理任務的性能和效率. 其研究目標包括: (1)自然語言處理中基於矩陣的特徵表示和模型建立;(2)基於矩陣的結構化學習算法; (3)基於矩陣的結構化學習在詞法分析, 句法分析等實際系統中的套用.. 預期的研究成果包括: 發表國內外學術期刊或會議論文6-8篇, 申請專利1-2項.
結題摘要
本項課題主要圍繞自然語言處理中的基於矩陣的結構化學習算法展開. 主要研究了結構化學習中的基於矩陣的特徵表示, 參數學習算法, 近似解碼算法等關鍵問題. 三年來的主要研究內容歸納為以下三方面:(1) 針對特徵建模和參數學習問題, 我們使用矩陣來表示自然語言處理中常用特徵. 對於帶有秩1約束的結構化學習框架, 提出了一種基於對偶上升的線上學習算法. 該算法能夠快速的計算高階稀疏矩陣的最大奇異向量, 從而提升結構化學習系統的效率. 我們給出了相應的收斂性分析結果, 並在中文分詞任務上驗證了算法的有效性. (2) 針對結構化學習中的近似解碼問題, 一方面利用PAC-Bayes框架分析了近似解碼算法的估計誤差. 另一方面, 通過例子說明了近似解碼算法可以和精確解碼算法有相當的近似誤差. 我們提出了一種新的間隔定義, 能夠方便的集成於現有的結構化學習算法.在文本分類, 中文分詞, 詞性標註, 短語切分, 依存句法分析驗證了理論分析和算法有效性.(3)我們將結構化學習套用到問答系統和信息抽取系統中.對於問答系統, 我們基於帶隱變數的結構化學習算法提出一種答案抽取算法.對於信息抽取系統, 我們在自動構建的訓練數據集上使用結構化學習算法進行關係抽取任務. 課題基本按照預定的計畫進行, 達到了項目的預期目標, 並完成了項目預期的研究成果. (1) 理論研究成果: 圍繞結構化學習與矩陣學習的相關研究成果發表在16篇國際會議及期刊論文上. 其中國際高水平會議論文ICML, NIPS, AAAI, EMNLP, EACL, CoNLL, SemEval共發表論文12篇, SCI檢索論文1篇, 其他會議論文3篇. (2) 資源建設: 在亞馬遜語料上蒐集和整理了4000篇評論, 標註和整理其中的傾向性關係, 制訂了相關標註規範, 並公開發布了語料庫. (3) 學術交流: 擔任國際會議期刊ACL, EMNLP, NLPCC, TALIP審稿人. 加入微軟亞洲研究院``鑄星''訪問學者計畫. 參加ICML, EACL, YSSNLP等國內外會議. (4) 人才培養: 指導了1名博士生, 4名碩士生, 5名本科生(其中一人獲得華東師範大學優秀畢業生).