文本分類中的文本圖表示模型和結構化稀疏模型研究

文本分類中的文本圖表示模型和結構化稀疏模型研究

《文本分類中的文本圖表示模型和結構化稀疏模型研究》是依託南京大學,由戴新宇擔任項目負責人的面上項目。

基本介紹

  • 中文名:文本分類中的文本圖表示模型和結構化稀疏模型研究
  • 項目類別:面上項目
  • 項目負責人:戴新宇
  • 依託單位:南京大學
項目摘要,結題摘要,

項目摘要

文本分類是自然語言處理研究中的一個經典問題。文本分類技術在網路輿情分析、專利分析等領域具有廣泛的套用。本課題針對目前文本分類研究中文本表示模型表達能力不足,分類模型不能充分利用結構化信息等問題,研究基於文本結構化表示的結構化稀疏模型。首先,探索研究結合詞法、句法、語義及篇章信息,能夠蘊含多層次結構化信息的文本圖表示模型;其次,基於文本結構化表示的特性,提出能夠針對文本圖表示的結構特性,將特徵選擇和模型學習相融合、具有高壓縮性、可解釋性等良好性質的結構化稀疏模型;給出結構化稀疏模型最佳化學習算法;最終基於上述理論成果,構建高性能的文本分類系統。本項目的研究成果將對自然語言處理中涉及結構化特徵選擇和分類模型的任務提供廣泛的借鑑意義。本項目可望在重要的國際國內期刊、會議上發表高質量論文5-8篇,申請發明專利2-3項,研製開源平台系統1個,培養學生5-8名。

結題摘要

在包括文本分類為代表的若干自然語言處理任務中,文本數據的表示和分類模型一直是研究者們關注的兩個核心問題。項目組基於任務書中關於文本結構化表示和結構化稀疏模型這兩個方面,展開了深入的探索和研究。具體的研究內容包括:自然語言的詞法和句法分析技術、文本表示模型和方法、結構化稀疏模型和方法、基於深度學習的文本表示模型和方法,以及以文本表示為基礎的自然語言處理若干套用研究。項目組提出了基於集成學習的中文分詞技術、基於搜尋的動態重排序的中文依存句法分析、基於用戶評論文本的文檔表示、基於分散式表示學習的詞及其屬性表示學習的一體化框架等一系列創新性的成果,共發表學術論文20篇。根據中國計算機學會(CCF)推薦的論文分類體系,包含A類論文6篇,B類論文3篇,C類論文5篇,多篇論文google scholar引用已經超過20次。申請國家發明專利3項,其中已授權2項。

相關詞條

熱門詞條

聯絡我們