分類器集成

集成學習

集成學習(ensemble learning)通過構建並結合多個學習器來完成學習任務，有時也被稱為多分類器系統(multi-classifier system)、基於委員會的學習(committee-based learning)。

圖1顯示出集成學習的一般結構：先產生一組“個體學習器”，再用某種策略將它們結合起來。個體學習器通常由一個現有的學習算法從訓練數據中產生，例如C4.5決策算法、BP神經網路算法等，此時集成中只包含同種類型的個體學習器，例如“決策樹集成”中全是決策樹，“神經網路集成”中全是神經網路，這樣的集成是“同質”的。同質集成中的個體學習器亦稱為“基學習器”。相應的學習算法稱為“基學習算法”。集成也可包含不同類型的個體學習器，例如，同時包含決策樹和神經網路，這樣的集成稱為“異質”的。異質集成中的個體學習器由不同的學習算法生成，這時就不再有基學習算法，常稱為“組件學習器”或直接稱為個體學習器。

集成學習通過將多個學習器進行結合，常可獲得比單一學習器更加顯著的泛化性能。這對“弱學習器”尤為明顯。因此集成學習的理論研究都是針對弱學習器進行的，而基學習器有時也被直接稱為弱學習器。但需注意的是，雖然從理論上說使用弱學習器集成足以獲得很好的性能，但在實踐中出於種種考慮，例如希望使用較少的個體學習器，或是重用一些常見學習器的一些經驗等，人們往往會使用比較強的學習器。

在一般經驗中，如果把好壞不等的東西摻到一起，那么通常結果會是比最壞的要好些，比最好的要壞一些。集成學習把多個學習器結合起來，如何能得到比最好的單一學習器更好的性能呢？

分類器集成示例

考慮一個簡單的例子：在二分類任務中，假定三個分類器在三個測試樣本的表現如圖2，其中，√ 表示分類正確，× 表示分類錯誤，集成學習的結果通過投票法產生，即“少數服從多數”。在圖2(a)中，每個分類器只有66.6%的精度，但集成學習卻達到了100%；在圖2(b)中，三個分類器沒有差別，集成之後性能沒有提高；在圖2(c)中，每個分類器只有33.3%的精度，集成學習變得更糟。這個例子顯示出，要想獲得好的集成，個體學習器應“好而不同”，即個體學習器要有一定的“準確性”，即學習器不能太壞，並且要有“多樣性”，即學習器間具有差異。