《基於多維潛層特徵抽取模型的演進式文本過濾》是依託北京郵電大學,由徐蔚然擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於多維潛層特徵抽取模型的演進式文本過濾
- 項目類別:青年科學基金項目
- 項目負責人:徐蔚然
- 依託單位:北京郵電大學
項目摘要,結題摘要,
項目摘要
本項目研究針對簡訊、郵件和網頁的演進式文本過濾。其特點是個性化需求、變化的文本內容、變化的分類類別和更主動的功能要求等。演進式過濾的根本問題是訓練樣本不足,擬通過改善特徵空間解決關鍵問題,即利用潛層特徵提取知識、表示知識和利用知識。項目將主要研究兩方面內容:根據文檔、詞語、類別、用戶和時間等可觀測維度以及它們的內在關聯建立關係模型,並基於該模型抽取隱藏的、具有概括性和完備性的潛在中間層特徵;根據訓練樣本的內容和數量,綜合考慮可觀測的和潛在的特徵,構建各種訓練樣本集下都能達到最高分類精度的識別算法。項目的研究內容符合模式識別和統計學習理論的基本要求,也符合當前技術發展的一般趨勢,具有合理性、可行性和創新性。預研結果初步驗證了研究方案的合理可行性。
結題摘要
本項目研究針對簡訊、郵件和網頁的演進式文本過濾,其特點是:個性化需求、變化的文本內容、變化的分類類別和更主動的功能要求等。演進式過濾的根本問題是訓練樣本不足,擬通過改善特徵空間來解決該問題。通過五個可直接觀測的維度(用戶u, 詞w, 文檔d, 類別c, 時間t)來抽取潛在的中間層特徵z,從而改善特徵空間。項目主要成果如下。 提出基於無監督特徵選擇的LDA(相關維度: w, z, d),改進了LDA的判別能力。潛在主題z的判別能力由代表詞的判別能力決定,而判別能力可用信息增益(IG)衡量。通過在LDA目標函式中加入正則項來優先選擇“special word”,並限制“general word”。實驗證明該方法有效提高了主題模型的判別能力。 提出Dual-PLSA模型(相關維度: w, z, c, d),用最少的標註樣本獲得最快的分類器收斂性能。構造兩個PLSA模型:標準的PLSA模型,用以通過無監督方式抽取語義內容特徵;c-w PLSA模型,即類別和詞語對應的PLSA模型;基於中間類別樣本並通過少量監督訓練文本的撬動作用來抽取z。實驗表明Dual-PLSA的收斂速度大大快於NBC。 在t維度研究突發話題檢測,主要成果有:提出Kleinberg二狀態自動機模型中解析度參數的估算方法;借鑑最大熵方法,將突發特徵檢測轉化為最小化當前分布到其均勻分布KL距離的問題,從而提出抗噪能力強的突發特徵檢測算法;研究了僅對文本數據進行靜態分析(主題分析)來找到突發話題的方法;提出一種基於半隨機遊走的動態主題模型對新聞標題進行建模。 提出基於激活力(Word Activation Force, WAF)和親和度(Affinity)的文本表示和分類方法(相關維度: w, d),該方法為超越BOW模型提供了重要的思路。提出基於WAF的動態規劃分詞與新詞發現算法(相關維度: w, d),給出了一種不需要先驗詞庫的分詞與新詞發現新思路。