面向短文本的主題建模研究

面向短文本的主題建模研究

《面向短文本的主題建模研究》是依託吉林大學,由李熙銘擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:面向短文本的主題建模研究
  • 項目類別:青年科學基金項目
  • 項目負責人:李熙銘
  • 依託單位:吉林大學
項目摘要,結題摘要,

項目摘要

利用主題模型建模短文本,可以有效地挖掘文本隱含語義,進而深入挖掘海量短文本中的有價值信息。然而,短文本詞項稀疏、高噪聲、時效性強和規模高速增長等特點導致已有方法的主題建模效果不理想,甚至不可用。為解決這些問題,本項目擬通過充分利用文本集層面的詞信息和無監督學習技術擴充短文本、考慮時間戳增強模型的動態表達能力和設計快速推理算法等策略,進而提出適用於短文本的主題建模新方法,提高短文本主題建模和語義挖掘效果。本項目擬開展:可包容稀疏詞項、高噪聲的短文本建模方法研究;動態短文本主題建模、突發主題和新主題的描述機制研究;針對短文本主題模型特殊結構的快速推理算法研究。本項目的研究成果可為社交媒體上的短文本實際套用任務奠定技術基礎。

結題摘要

隨著社交媒體的普及,短文本成為一種重要的數據類型。利用主題模型建模短文本,可以有效地挖掘文本隱含語義,進而深入挖掘海量短文本中的有價值信息。然而,短文本詞項稀疏、高噪聲、時效性強和規模高速增長等特點導致已有方法的主題建模效果不理想,甚至不可用。針對這些問題,本項目展開以下主要研究內容:1.針對短文本的稀疏問題展開研究。提出基於自動聚類框架的隱含主題模型,通過自適應地合併關聯短文本構成偽長文本,對偽長文本主題推理,從而間接增加文本層面的詞量;提出相關詞對主題模型,利用詞嵌入技術構建隱含詞對,在數據集層面增加詞共現信息;提出拉普拉斯狄利克雷混合模型,利用流形約束連結相似文本,在文本層面間接增加詞共現信息。2.面向弱監督文本數據展開研究。基於種子詞的文本分類方法可以有效減少人工收集標註訓練集的開銷,然而,種子詞提供的有監督信息卻十分有限。對此,提出偽標籤樸素貝葉斯算法,利用種子詞構建偽訓練集,在期望最大化算法框架下,同時疊代最佳化樸素貝葉斯分類器的參數和更新偽訓練集;提出拉普拉斯種子主題模型,使用文本流形約束相似文本之間的標籤主題傳遞有監督信息,從而間接豐富有監督信息。3.貝葉斯模型推理算法研究。黑盒變分推理算法是一種常用的貝葉斯模型推理算法,使用蒙特卡洛梯度近似真實梯度,然而蒙特卡洛梯度的誤差(方差)通常較大,影響推理效果。對此,提出自適應重要性採樣的黑盒變分推理算法,利用內嵌的最優提議分布估計過程,計算重要性採樣的最優提議分布,從而減少蒙特卡洛梯度的方差;提出一種通用的黑盒期望傳播算法,該算法使用蒙特卡洛近似計算期望傳播中的矩匹配步驟,有效避免模型依賴性。上述工作為短文本主題建模領域的研究提供了新算法和新思路,為解決日益增加的短文本數據挖掘和信息檢索的實際套用任務奠定技術基礎。關鍵字:短文本,主題模型,弱監督學習,模型推理

相關詞條

熱門詞條

聯絡我們