多領域網路文本數據的自適應結構化分類方法研究

《多領域網路文本數據的自適應結構化分類方法研究》是依託北京大學,由孫栩擔任負責人的青年科學基金項目。

基本介紹

  • 中文名:多領域網路文本數據的自適應結構化分類方法研究
  • 項目負責人:孫栩
  • 項目類別:青年科學基金項目
  • 依託單位:北京大學
項目摘要,結題摘要,

項目摘要

網路文本數據來自多個不同的領域,形成了一個領域高度多元化的文本數據集,給自然語言處理帶來新挑戰。現有結構化分類技術在領域多元化的網路文本數據上缺乏跨領域的自適應學習能力。為了解決此問題,本項目擬研究多領域網路文本數據的特點,提出具有自適應能力的結構化學習方法。主要研究內容如下:(1)把每個領域作為一個和其他領域相關的任務,研究多任務學習技術用於處理多領域網路文本數據。該方法對領域關聯度進行自適應學習,從領域相關性自動建模的角度處理跨領域的網路文本。(2)把領域特性作為任務的隱含信息,研究條件隱變數模型對多領域數據的自適應處理能力。該方法對領域的隱含信息進行統一建模,從而能夠自動融合多領域數據,實現高效的結構化分類目標。(3)不管是多任務學習還是條件隱變數模型,處理多領域網路文本都面臨複雜度高、速度慢的問題,我們研究高速的最佳化算法解決這個問題。

結題摘要

本項目的主要內容是多領域網路文本數據的自適應結構化分類方法研究。該研究包含兩個方面,一是基礎理論和技術,二是具體套用。在基礎理論和技術方面,多領域網路文本的自然語言處理任務,存在數據規模龐大、學習容易過擬合的問題。針對這些問題我們提出了一系列解決方案,包括異步並行的AsynGrad算法、基於結構分解的結構正則化方法以及特徵頻率自適應學習方法。對於深度學習模型,異步並行的AsynGrad算法能有效的利用CPU計算資源,並行地訓練同一個模型。而基於結構分解的結構正則化方法則通過尋找適合模型的結構複雜度,一方面提高了相應模型的效果,另一方面提高了訓練速度。對於傳統模型的參數學習,特徵頻率自適應學習方法能根據特徵更新的歷史信息啟發式的更改學習率,實現了針對每個特徵差異的學習率,有效的提高了訓練收斂速度。在具體套用方面,多領域網路文本存在縮略語較多、分詞和命名實體識別困難等問題。我們針對這些問題提出了一系列技術方案,包括跨領域學習和半監督學習的聯合算法、深度模型DGRNN以及基於弱監督的重排序算法和基於最小語義單元的ILP約束算法。跨領域學習和半監督學習的聯合算法用於中文網路文本的命名實體識別任務,並在微博命名實體識別任務上大幅改善了效果。深度模型DGRNN則用於網路文本的分詞問題,在不同語料上超越了以往算法的效果。基於弱監督的重排序算法和基於最小語義單元的ILP約束算法用於縮略語預測,在實踐中均取得了較好效果。這些研究以論文的形式發表在自然語言處理最高級別期刊CL和頂級會議ACL,NIPS,AAAI,EMNLP,COLING等。項目負責人孫栩在總結項目研究結果基礎上,在國際會議EMNLP 2016上進行了題為Methods and theories for large-scale structured prediction 的講習班報告(Tutorial)。報告歷時3小時,並獲得廣泛關注,為本次會議6個tutorial中註冊人數最多的2個tutorial之一,在國際學術領域產生了較大的影響。

相關詞條

熱門詞條

聯絡我們