Bogofilter是目前比較流行的貝葉斯過濾器,它的主要原理是樸素貝葉斯理論。Bogofilter建立垃圾郵件和非垃圾郵件貝葉斯機率模型,在貝葉斯原理的實現上,加入了Paul Graham 關於垃圾郵件的過濾理論。該理論大體思想是,在已知的垃圾郵件中,一些單詞出現的頻率較高,而在合法郵件中,另一些單詞出現的頻率較高。運用一些眾所周知的數學知識,對於每個單詞,可以生成一個”垃圾郵件指示性機率”。根據訊息中所辦含一組詞,可以用另一個簡單的數學公式來確定文本訊息的整體垃圾郵件機率。
基本介紹
- 中文名:貝葉斯過濾器
- 外文名:Bogofilter
- 主要原理:樸素貝葉斯理論
- 優點:小巧,可靠,性能高
簡介,效率,
簡介
Bogofilter將由空格隔開的單詞作為特徵,並且對特徵進行更加嚴格的定義,譬如,去除單純包含數字的特徵,對於$20-25這種形式的價格範圍,被標記為兩個關鍵字,$20和$25等。Bogofilter還使用了平滑技術,來加強過濾器的過濾精度。
效率
在過濾效率上,Bogofilter採取有效的數據表示,和高效的數據存儲技術,獲得比較高的過濾效率。Bogofilter使用高性能的Berkerly DB 資料庫。Berkerly DB是歷史悠久的嵌入式資料庫系統,其小巧,可靠,性能高。Berkerly DB 比SQL SERVER 等資料庫性能要高10-20倍。