《基於貝葉斯圖模型的海量短文本數據統計推斷》是依託東北師範大學,由馮國忠擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於貝葉斯圖模型的海量短文本數據統計推斷
- 項目類別:青年科學基金項目
- 項目負責人:馮國忠
- 依託單位:東北師範大學
項目摘要,結題摘要,
項目摘要
生產生活中隨處可見的即時通訊、微博、電子郵件、商品評論等都是由大量的無結構自由短文本組成,呈現出海量性和複雜性。這些海量的短文本數據蘊含著大量的信息,是重要的知識源。它們通常被結構化表示成以文本集中詞總數為維數的向量。而對於短文本來說,詞組、句式結構等詞與詞之間的關係對於保全語義信息更為重要。於是,結構化表示之後的數據就有了超高維、稀疏以及變數間關係重要等特點。本項目以分析和處理海量短文本數據中亟待解決的問題為驅動,以現有的貝葉斯圖模型理論與方法為基礎,以實際套用為目的,研究適用於海量短文本數據的統計方法,挖掘詞語與分類變數、詞語與詞語之間的相互依賴關係,構建基於變數間依賴關係網路的貝葉斯層次模型,實現高精度快速自動文本分類、聚類。
結題摘要
文本數據是典型的非結構數據,呈現出海量性和複雜性等特點,是近年來統計學習乃至整個機器學習領域都關注和研究的數據類型。文本的基本語義單位是詞,在文本分析中如何科學地選出重要的詞並賦予恰當的權重並進行自動分類、聚類成為很多問題的關鍵,也是本課題的主要研究任務。 本課題以分析和處理海量短文本數據問題中需要解決的問題為驅動,以現有的貝葉斯圖模型理論為基礎,以實際套用為目的,探索適用於海量短文本數據的統計方法。為此,我們主要完成了如下工作:首先給出了一個基於機率模型的“詞頻-關聯詞頻”的賦權方法。通過研究比較兩種文本分類中廣泛運用的樸素貝葉斯模型,我們使用“詞事件”模型來捕獲各文檔內部的詞頻信息;其次,提出了一種基於“詞事件”的關聯流行的詞選擇方法。我們可以將基於文檔類別預測機率比的匹配得分函式分解,並得到各個特徵(詞)的得分;再次,我們提出了一種基於機率模型的新賦權方法。我們在貝葉斯模型中引入一個潛在變數來表示各個詞是否提供分類相關信息,並設定相關的共軛先驗分布;最後,我們運用如上特徵選擇和賦權方法,挖掘詞語之間的相互依賴關係,構建結構先驗,實現了快速高效的文本自動分類、聚類。此外,我們也研究了一些深度學習的方法來進行相應的文本信息挖掘。