文本挖掘的統計建模

項目摘要

文本數據在我們的日常生活中處處可見，如新聞報導/評論，廣告信息，投訴熱線文本，商場/網站購買紀錄等等。文本數據是一個非常豐富而特殊的數據類型。文本數據的主要特點包括（1）超高維（2）稀疏（3）離散數據等。這些特點使得對文本數據的建模分析足夠複雜且具有挑戰性。其分析方法獨具一格，該數據分析方法的發展能夠促進統計學科的發展。美國科學院院士 Michael Jordan 及其學生 David Blei提出的主題模型（topic model）目前在文本分析中非常活躍。其方法也被廣泛的套用於圖像分析中。本課題將針對文本數據的一些側面進行深入的探討，改進、發展和完善文本分析統計建模方法。主要研究內容包括以下幾個方面：（1）建立隨時間變化的主題模型並檢測主題變點；（2）建立基於數據流的文本聚類方法；（3）將文本詞語之間的結構信息融入Naïve Bayes 建立更有效的文本分類方法。

結題摘要

大數據研究是當前非常活躍的研究領域。文本大數據分析是大數據分析的一個重要研究方向。文本數據分析包含非常豐富的數據，對文本數據的建模分析過程往往可以提煉出許多理論問題。本項目對文本數據分析的一些側面進行深入地探討。改進、發展和完善了文本分析統計建模方法和理論。在對文本建模的過程中，發展了新型的文本模型、提煉出高維稀疏判別分析、高維稀疏泊松回歸、高維稀疏負二項分布的方法和理論。取得了非常好的理論結果和非常具有競爭力的新方法。我們我們建立了隨時間變化的主題模型並檢測主題變點；使用最佳化方法，建立了聚類的多元聯合 Poisson 模型，對文本進行聚類和分類分析，融入了詞語間的結構信息；研究了線性判別分析方法和最小二乘的關係，然後利用稀疏最小二乘解決高維稀疏線性判別分析問題，並證明了該方法良好的統計性質。針對文本分析中廣泛採用的泊松回歸模型，我們提出了新的求解稀疏模型係數的新方法，並證明了新方法的優良統計特性，比較了該方法和傳統方法之間的差異，模擬結果和實際數據分析都顯示了我們方法的優越性。

文本挖掘的統計建模

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條