改進樸素貝葉斯

樸素貝葉斯

在採用貝葉斯公式來估計後驗機率P(c|x)的主要困難是：類條件機率P(x|c)是所有屬性上的聯合機率，難以從有限的訓練樣本直接估計得到。

為了避開這個障礙，樸素貝葉斯分類器採用了“屬性條件獨立性假設”：對已知類別，假設所有屬性相互獨立。換言之，假設每個屬性獨立地對分類結果發生影響。

但在現實任務中，這個假設往往很難成立，於是人們嘗試對屬性條件獨立性假設進行一定程度的放鬆，由此產生了一類“半樸素貝葉斯分類器”的學習方法。

在樸素貝葉斯中，計算聯合機率時，為了避免其他屬性攜帶的信息被訓練集中從未出現的屬性值“抹去”，在估計機率值時通常要進行“平滑”，常用“拉普拉斯修正”。具體來說，令N表示訓練集D中可能的類別數，

表示第i個屬性可能的取值數，則

半樸素貝葉斯的基本思想是：適當考慮一部分屬性間的相互依賴信息，從而既不需要進行完全聯合機率計算，又不至於徹底忽略了比較強的相互依賴關係。“獨依賴估計”是半樸素貝葉斯分類器中最常用的一種策略。顧名思義，所謂“獨依賴”，就是假設每個屬性在類別之外最多依賴於一個其他屬性。

最直接的做法是假設所有屬性都依賴於同一個屬性，稱為“超父”（super-parent），然後通過交叉驗證等模型方法來確定超父屬性，由此形成了SPODE（Super-Parent ODE）方法。

TAN（Tree Augmented naive Bayes）則是在最大帶權生成樹(maximum weighted spanning tree)的基礎上，通過以下步驟將屬性間依賴關係約簡為如圖1所示(c)的樹形結構：

圖1