簡訊過濾系統

簡訊過濾系統概述

手機簡訊以其短小、迅速、簡便、價格低廉等優點成為一種重要的通信和交流方式，受到眾多人士的青睞。然而，手機簡訊與郵件一樣存在著垃圾信息問題。　目前，垃圾簡訊過濾主要有黑名單過濾、關鍵字過濾和基於文本分類的內容過濾等方式。黑名單過濾和關鍵字過濾方式能快速過濾垃圾簡訊，但這兩種過濾方式實質是基於規則的過濾，雖然在一定程度上阻擋了一些垃圾簡訊，但規則的方法需要更多的用戶自定義設定，很容易被反過濾。基於文本分類的簡訊過濾採用常見的分類算法，如樸素貝葉斯、svm、神經網路等。黎路等人將貝葉斯分類套用到j2me 模擬環境中成功地過濾了中獎簡訊和祝福簡訊。浙江大學的金展、范晶等將樸素貝葉斯和支持向量機結合，解決了傳統垃圾簡訊過濾系統簡訊特徵和內容未能得到及時更新而導致過濾性能降低的問題。王忠軍將基於樸素貝葉斯簡訊過濾算法與基於最小風險貝葉斯算法進行了實驗分析和比較，結論是基於最小風險的簡訊過濾算法具有較好的性能。　然而，簡訊過濾的準確率依賴於其訓練樣本的數量及質量，這些分類算法需要經過訓練學習建立分類器模型，因此在速度上不能很好地滿足簡訊過濾實時性的要求。

簡訊過濾系統套用前景

從現有技術上來說，垃圾簡訊的過濾在準確率和效率方面仍然不能滿足現實需要。　winnow 算法是在1987 年由nick littlestone 提出並對可行性做了嚴格證明的線性分類算法。當時的目標是想找到一種時空複雜度僅僅與分類對象相關屬性相關的數量呈線性相關的算法。平衡winnow 算法是對基本winnow 算法的一種改進，該算法具有過濾速度快、性能好、支持反饋更新的優點，在信息過濾領域有很好的套用前景，尤其適合於對實時性要求較高的簡訊過濾系統。