歸納偏置

簡介

機器學習試圖去建造一個可以學習的算法，用來預測某個目標的結果。要達到此目的，要給於學習算法一些訓練樣本，樣本說明輸入與輸出之間的預期關係。然後假設學習器在預測中逼近正確的結果，其中包括在訓練中未出現的樣本。既然未知狀況可以是任意的結果，若沒有其它額外的假設，這任務就無法解決。這種關於目標函式的必要假設就稱為歸納偏置（Mitchell, 1980; desJardins and Gordon, 1995）。

一個典型的歸納偏置例子是奧卡姆剃刀，它假設最簡單而又一致的假設是最佳的。這裡的一致是指學習器的假設會對所有樣本產生正確的結果。

歸納偏置比較正式的定義是基於數學上的邏輯。這裡，歸納偏置是一個與訓練樣本一起的邏輯式子，其邏輯上會蘊涵學習器所產生的假設。然而在實際套用中，這種嚴謹形式常常無法適用。在有些情況下，學習器的歸納偏置可能只是一個很粗糙的描述（如在人工神經網路中），甚至更加簡單。

種類

以下是機器學習中常見的歸納偏置列表：

最大條件獨立性（conditional independence）：如果假說能轉成貝葉斯模型架構，則試著使用最大化條件獨立性。這是用於樸素貝葉斯分類器（Naive Bayes classifier）的偏置。

最小交叉驗證誤差：當試圖在假說中做選擇時，挑選那個具有最低交叉驗證誤差的假說，雖然交叉驗證看起來可能無關偏置，但天下沒有免費的午餐理論顯示交叉驗證已是偏置的。

最大邊界：當要在兩個類別間畫一道分界線時，試圖去最大化邊界的寬度。這是用於支持向量機的偏置,它假設不同的類別是由寬界線來區分。

最小描述長度（Minimum description length）：當構成一個假設時，試圖去最小化其假設的描述長度。假設越簡單，越可能為真的。見奧卡姆剃刀。

最少特徵數（Minimum features）：除非有充分的證據顯示一個特徵是有效用的，否則它應當被刪除。這是特徵選擇（feature selection）算法背後所使用的假設。

最近鄰居：假設在特徵空間（feature space）中一小區域內大部分的樣本是同屬一類。給一個未知類別的樣本，猜測它與它最緊接的大部分鄰居是同屬一類。這是用於最近鄰居法的偏置。這個假設是相近的樣本應傾向同屬於一類別。

變換

雖然大部分的學習算法使用固定的偏置，但有些算法在獲得更多數據時可以變換它們的偏置。這不會取消偏置，因為偏置變換的過程本身就是一種偏置。

舉例

一個典型的歸納偏置例子是奧卡姆剃刀。奧卡姆剃刀（英語：Occam's Razor, Ockham's Razor），又稱“奧坎的剃刀”，拉丁文為lex parsimoniae，意思是簡約之法則，是由14世紀邏輯學家、聖方濟各會修士奧卡姆的威廉（William of Occam，約1287年至1347年，奧卡姆（Ockham）位於英格蘭的薩里郡）提出的一個解決問題的法則，他在《箴言書注》2卷15題說“切勿浪費較多東西，去做‘用較少的東西，同樣可以做好的事情’。”換一種說法，如果關於同一個問題有許多種理論，每一種都能作出同樣準確的預言，那么應該挑選其中使用假定最少的。儘管越複雜的方法通常能做出越好的預言，但是在不考慮預言能力（即結果大致相同）的情況下，假設越少越好。

歸納偏置

基本介紹

簡介

種類

變換

舉例

相關詞條

熱門詞條