損失函式(代價函式)

損失函式

代價函式一般指本詞條

損失函式(loss function)或代價函式(cost function)是將隨機事件或其有關隨機變數的取值映射為非負實數以表示該隨機事件的“風險”或“損失”的函式。在套用中,損失函式通常作為學習準則與最佳化問題相聯繫,即通過最小化損失函式求解和評估模型。例如在統計學和機器學習中被用於模型的參數估計(parametric estimation),在總量經濟學中被用於風險管理(risk management)和決策,在控制理論中被套用於最優控制理論(optimal control theory)。

基本介紹

  • 中文名:損失函式
  • 外文名:loss function
  • 類型函式
  • 套用學科:統計學
  • 套用領域:機器學習,經濟學,控制理論
函式定義,函式分類,回歸問題,分類問題,

函式定義

樣本空間
內有可測狀態
隨機變數
根據法則
所做的決策
,此時若在乘積空間
上有函式
滿足:
,即對任意的
是非負可測函式,則
被稱為損失函式,表示狀態
下採取決策
所對應的損失或風險。
機器學習中,給定獨立同分布(independent and identically distributed,iid)的學習樣本
,和模型
,損失函式是模型輸出和觀測結果間機率分布差異的量化:
式中
表示模型參數,上式右側具體的量化方法視問題和模型而定,但要求滿足損失函式的一般定義,即樣本空間的非負可測函式。

函式分類

回歸問題

回歸問題所對應的損失函式為L2損失函式和L1損失函式,二者度量了模型估計值
與觀測值
之間的差異:
式中
為真實值的權重,
為真實值,
為模型的輸出。各類回歸模型,例如線性回歸廣義線性模型(Generalized Linear Model, GLM)和人工神經網路(Artificial Neural Network, ANN)通過最小化L2或L1損失對其參數進行估計。L2損失和L1損失的不同在於,L2損失通過平方計算放大了估計值和真實值的距離,因此對偏離觀測值的輸出給予很大的懲罰。此外,L2損失是平滑函式,在求解其最佳化問題時有利於誤差梯度的計算;L1損失對估計值和真實值之差取絕對值,對偏離真實值的輸出不敏感,因此在觀測中存在異常值時有利於保持模型穩定。

分類問題

分類問題所對應的損失函式為0-1損失,其是分類準確度的度量,對分類正確的估計值取0,反之取1:
0-1損失函式是一個不連續的分段函式,不利於求解其最小化問題,因此在套用可構造其代理損失(surrogate loss)。代理損失是與原損失函式具有相合性(consistency)的損失函式,最小化代理損失所得的模型參數也是最小化原損失函式的解。當一個函式是連續凸函式,並在任意取值下是0-1損失函式的上界時,該函式可作為0-1損失函式的代理函式。
這裡給出二元分類(binary classification)中0-1損失函式的代理損失:
二元分類中常見的代理損失
名稱
表達式
鉸鏈損失函式(hinge loss function)
交叉熵損失函式(cross-entropy loss function)
指數損失函式(exponential loss function)
損失函式
鉸鏈損失(實線)、交叉熵損失(點)、指數損失(虛線)
鉸鏈損失函式是一個分段連續函式,其在分類器分類完全正確時取0。使用鉸鏈損失對應的分類器是支持向量機(Support Vector Machine, SVM),鉸鏈損失的性質決定了SVM具有稀疏性,即分類正確但機率不足1和分類錯誤的樣本被識別為支持向量(support vector)被用於劃分決策邊界,其餘分類完全正確的樣本沒有參與模型求解。
交叉熵損失函式是一個平滑函式,其本質是信息理論(information theory)中的交叉熵(cross entropy)在分類問題中的套用。由交叉熵的定義可知,最小化交叉熵等價於最小化觀測值和估計值的相對熵(relative entropy),即兩者機率分布的Kullback-Leibler散度:
,因此其是一個提供無偏估計的代理損失。交叉熵損失函式是表中使用最廣泛的代理損失,對應的分類器例子包括logistic回歸人工神經網路和機率輸出的支持向量機
指數損失函式是表中對錯誤分類施加最大懲罰的損失函式,因此其優勢是誤差梯度大,對應的極小值問題在使用梯度算法時求解速度快。使用指數損失的分類器通常為自適應提升算法(Adaptive Boosting, AdaBoost),AdaBoot利用指數損失易於計算的特點,構建多個可快速求解的“弱”分類器成員並按成員表現進行賦權和疊代,組合得到一個“強”分類器並輸出結果。

相關詞條

熱門詞條

聯絡我們