基於多維潛層特徵抽取模型的演進式文本過濾

項目摘要

本項目研究針對簡訊、郵件和網頁的演進式文本過濾。其特點是個性化需求、變化的文本內容、變化的分類類別和更主動的功能要求等。演進式過濾的根本問題是訓練樣本不足，擬通過改善特徵空間解決關鍵問題，即利用潛層特徵提取知識、表示知識和利用知識。項目將主要研究兩方面內容：根據文檔、詞語、類別、用戶和時間等可觀測維度以及它們的內在關聯建立關係模型，並基於該模型抽取隱藏的、具有概括性和完備性的潛在中間層特徵；根據訓練樣本的內容和數量，綜合考慮可觀測的和潛在的特徵，構建各種訓練樣本集下都能達到最高分類精度的識別算法。項目的研究內容符合模式識別和統計學習理論的基本要求，也符合當前技術發展的一般趨勢，具有合理性、可行性和創新性。預研結果初步驗證了研究方案的合理可行性。

結題摘要

本項目研究針對簡訊、郵件和網頁的演進式文本過濾，其特點是：個性化需求、變化的文本內容、變化的分類類別和更主動的功能要求等。演進式過濾的根本問題是訓練樣本不足，擬通過改善特徵空間來解決該問題。通過五個可直接觀測的維度(用戶u, 詞w, 文檔d, 類別c, 時間t)來抽取潛在的中間層特徵z，從而改善特徵空間。項目主要成果如下。提出基於無監督特徵選擇的LDA(相關維度: w, z, d)，改進了LDA的判別能力。潛在主題z的判別能力由代表詞的判別能力決定，而判別能力可用信息增益（IG）衡量。通過在LDA目標函式中加入正則項來優先選擇“special word”，並限制“general word”。實驗證明該方法有效提高了主題模型的判別能力。提出Dual-PLSA模型(相關維度: w, z, c, d)，用最少的標註樣本獲得最快的分類器收斂性能。構造兩個PLSA模型:標準的PLSA模型，用以通過無監督方式抽取語義內容特徵；c-w PLSA模型，即類別和詞語對應的PLSA模型；基於中間類別樣本並通過少量監督訓練文本的撬動作用來抽取z。實驗表明Dual-PLSA的收斂速度大大快於NBC。在t維度研究突發話題檢測,主要成果有：提出Kleinberg二狀態自動機模型中解析度參數的估算方法；借鑑最大熵方法，將突發特徵檢測轉化為最小化當前分布到其均勻分布KL距離的問題，從而提出抗噪能力強的突發特徵檢測算法；研究了僅對文本數據進行靜態分析（主題分析）來找到突發話題的方法；提出一種基於半隨機遊走的動態主題模型對新聞標題進行建模。提出基於激活力(Word Activation Force, WAF)和親和度(Affinity)的文本表示和分類方法(相關維度: w, d)，該方法為超越BOW模型提供了重要的思路。提出基於WAF的動態規劃分詞與新詞發現算法(相關維度: w, d)，給出了一種不需要先驗詞庫的分詞與新詞發現新思路。

基於多維潛層特徵抽取模型的演進式文本過濾

基本介紹

項目摘要

結題摘要

熱門詞條