校驗集

校驗集

機器學習和模式識別等領域中,一般需要將樣本分成獨立的三部分訓練集(train set),校驗集(validation set ) 和測試集(test set)。校驗集是用來做模型選擇(model selection),即做模型的最終最佳化及確定的數據集。在實際套用中,校驗集是可選的,因為校驗集主要作用是輔助模型構建。

基本介紹

  • 中文名:校驗集
  • 外文名:validation set
  • 領域:機器學習和模式識
  • 作用:用來做模型選擇
  • 有關術語:訓練集、測試集
  • 方法:留出法、自助法
定義,過擬合,交叉驗證,無偏估計,

定義

在機器學習中,研究和構建算法用來對數據進行學習和預測是一個常見任務,這些算法是通過基於數據驅動的預測或決策工作,即對輸入的數據搭建數學模型。用於構建最終的模型,需要三個數據集,訓練集,校驗集以及測試集。訓練集用於用來訓練模型或確定模型參數的。校驗集用於用來調參、選擇特徵以及調整其他和學習算法相關的選項。校驗集可以對經訓練集訓練以後的模型進行無偏評估在進行調參的時候。驗證數據集可用於正規化通過提前停止:停止訓練當驗證數據集中的誤差增加,這是訓練模型出現過擬合的現象。例如在神經網路中,用驗證數據集去尋找最優的網路深度(number of hidden layers),或者決定反向傳播算法的停止點;在普通的機器學習中常用的交叉驗證(Cross Validation) 就是把訓練數據集本身再細分成不同的驗證數據集去訓練模型。
測試集是用來評估模型的性能,但不能作為調參、選擇特徵等算法相關的選擇的依據。提前停止一種當驗證集上的性能不再提高時停止訓練集上學習的方法,旨在克服過擬合現象。

過擬合

過擬合(overfitting,或稱過度擬合)現象是指在擬合一個統計模型時,使用過多參數。對比於可獲取的數據總量來說,一個荒謬的模型只要足夠複雜,是可以地適應數據。過擬合一般可以視為違反奧卡姆剃刀原則。當可選擇的參數的自由度超過數據所包含信息內容時,這會導致最後(擬合後)模型使用任意的參數,這會減少或破壞模型一般化的能力更甚於適應數據。過擬合的可能性不只取決於參數個數和數據,也跟模型架構與數據的一致性有關。此外對比於數據中預期的噪聲或錯誤數量,跟模型錯誤的數量也有關。
過擬合現象的觀念對機器學習也是很重要的,是指學習時選擇的模型所包含的參數過多,以致於出現這一模型對已知數據預測的很好,但對未知數據預測很差的現象。通常一個學習算法是藉由訓練示例來訓練的。亦即預期結果的示例是可知的。而學習者則被認為須達到可以預測出其它示例的正確的結果,因此,應適用於一般化的情況而非只是訓練時所使用的現有數據(根據它的歸納偏向)。然而,學習者卻會去適應訓練數據中太特化但又隨機的特徵,特別是在當學習過程太久或示例太少時。在過擬合的過程中,當預測訓練示例結果的表現增加時,套用在未知數據的表現則變更差。

交叉驗證

交叉驗證是又一種模型選擇方法,它與前面介紹的模型選擇方法有所不同,是一種沒有任何前提假定直接估計泛化誤差的模型選擇方法,由於沒有任何假定,可以套用於各種模型選擇中,因此具有套用的普遍性,又由於其操作的簡便性,被人們認為是一種行之有效的模型選擇方法。
交叉驗證的產生是一個曲折的過程。首先是人們發現用同一數據集既進行模型訓練又進行泛化誤差的估計會產生一個較差的結果,也就是我們常說的訓練誤差估計的樂觀性,為了克服這個問題,交叉驗證的方法被人們提了出來,它的基本思想是將數據分為兩部分,一部分數據用來進行模型的訓練,通常我們叫做訓練集,另一部分數據用來測試訓練生成模型的誤差,我們叫做測試集,由於兩部分數據的不同,泛化誤差的估計是在新的數據上進行,這樣的泛化誤差的估計可以更接近真實的泛化誤差,在數據足夠的情況下,我們可以很好估計出真實的泛化誤差,但是在實際套用中,往往只有有限的數據可用,我們必須對數據進行重用,對數據進行多次切分來得到好的估計,自從交叉驗證提出以後,人們提出了不同的數據切分方式。
Holdout 驗證
常識來說,Holdout 驗證並非一種交叉驗證,因為數據並沒有交叉使用。 隨機從最初的樣本中選出部分,形成交叉驗證數據,而剩餘的就當做訓練數據。 一般來說,少於原本樣本三分之一的數據被選做驗證數據。
K-fold cross-validation
K折交叉驗證,初始採樣分割成K個子樣本,一個單獨的子樣本被保留作為驗證模型的數據,其他K-1個樣本用來訓練。交叉驗證重複K次,每個子樣本驗證一次,平均K次的結果或者使用其它結合方式,最終得到一個單一估測。這個方法的優勢在於,同時重複運用隨機產生的子樣本進行訓練和驗證,每次的結果驗證一次,10折交叉驗證是最常用的。

無偏估計

無偏估計是用樣本統計量來估計總體參數時的一種無偏推斷。估計量的數學期望等於被估計參數的真實值,則稱此此估計量為被估計參數的無偏估計,即具有無偏性,是一種用於評價估計量優良性的準則。無偏估計的意義是:在多次重複下,它們的平均數接近所估計的參數真值。無偏估計常被套用於測驗分數統計中。當其他量相等時,無偏估計量比有偏估計量更好一些,但在實踐中,並不是所有其他統計量的都相等,於是也經常使用有偏估計量,一般偏差較小。當使用一個有偏估計量時,也會估計它的偏差。有偏估計量可能用於以下原因:由於如果不對總體進一步假設,無偏估計量不存在或很難計算(如標準差的無偏估計);由於估計量是中值無偏的,卻不是均值無偏的(或反之);由於一個有偏估計量較之無偏估計量(特別是收縮估計量)可以減小一些損失函式(尤其是均方差);或者由於在某些情況下,無偏的條件太強,而這些無偏估計量沒有太大用處。

相關詞條

熱門詞條

聯絡我們