文本挖掘的統計建模

《文本挖掘的統計建模》是依託北京大學,由賈金柱擔任項目負責人的面上項目。

基本介紹

  • 中文名:文本挖掘的統計建模
  • 依託單位:北京大學
  • 項目負責人:賈金柱
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

文本數據在我們的日常生活中處處可見,如新聞報導/評論,廣告信息,投訴熱線文本,商場/網站購買紀錄等等。文本數據是一個非常豐富而特殊的數據類型。文本數據的主要特點包括(1)超高維 (2)稀疏(3)離散數據等。這些特點使得對文本數據的建模分析足夠複雜且具有挑戰性。其分析方法獨具一格,該數據分析方法的發展能夠促進統計學科的發展。美國科學院院士 Michael Jordan 及其學生 David Blei提出的主題模型(topic model)目前在文本分析中非常活躍。其方法也被廣泛的套用於圖像分析中。本課題將針對文本數據的一些側面進行深入的探討,改進、發展和完善文本分析統計建模方法。主要研究內容包括以下幾個方面:(1)建立隨時間變化的主題模型並檢測主題變點;(2)建立基於數據流的文本聚類方法; (3)將文本詞語之間的結構信息融入Naïve Bayes 建立更有效的文本分類方法。

結題摘要

大數據研究是當前非常活躍的研究領域。文本大數據分析是大數據分析的一個重要研究方向。文本數據分析包含非常豐富的數據,對文本數據的建模分析過程往往可以提煉出許多理論問題。本項目對文本數據分析的一些側面進行深入地探討。改進、發展和完善了文本分析統計建模方法和理論。在對文本建模的過程中,發展了新型的文本模型、提煉出高維稀疏判別分析、高維稀疏泊松回歸、高維稀疏負二項分布的方法和理論。取得了非常好的理論結果和非常具有競爭力的新方法。我們我們建立了隨時間變化的主題模型並檢測主題變點;使用最佳化方法,建立了聚類的多元聯合 Poisson 模型,對文本進行聚類和分類分析,融入了詞語間的結構信息;研究了線性判別分析方法和最小二乘的關係,然後利用稀疏最小二乘解決高維稀疏線性判別分析問題,並證明了該方法良好的統計性質。針對文本分析中廣泛採用的泊松回歸模型,我們提出了新的求解稀疏模型係數的新方法,並證明了新方法的優良統計特性,比較了該方法和傳統方法之間的差異,模擬結果和實際數據分析都顯示了我們方法的優越性。

相關詞條

熱門詞條

聯絡我們