可靠性圖

可靠性圖

可靠性圖(reliability diagram)是以隨機變數預測值的機率分布為橫坐標, 真實值對預測值的條件機率分布(或頻率分布)為縱坐標的二維圖,可以在二元分類(binary classification)問題中評估分類器的可靠性,對不可靠的分類器進行校準。

一個完全可靠的分類器在可靠性圖中是一條以原點出發,斜率為45度的直線。若可靠性圖的斜率小於45度,則該分類器對負類偏斜;反之則對正類偏斜。

可靠性圖在不均衡的二元分類問題,例如廣告排序、醫學數據分析、極端氣候檢測中有套用。由於可靠性圖要求以機率分布作為輸入,因此其對應的分類器通常為支持機率輸出的機器學習和統計學習分類器。

基本介紹

  • 中文名:可靠性圖
  • 外文名:reliability diagram
  • 提出者:M.H. DeGroot,S.E. Fienberg 
  • 提出時間:1982年
  • 學科:統計學習,機器學習
  • 套用:廣告排序,異常值檢測
可靠性圖在二元分類問題中是評估分類器可靠性的常見方式,這裡的“可靠性”是指模式識別問題中的“判別可靠性”,即分類器在準確性(precision)和特異性(recall)上的綜合表現。準確性和特異性相平衡的分類器被認為是可靠的。F1得分(F1 score)和頻率偏差(frequency bias)可以對“可靠性”進行大致的概括。
在實際套用中,可靠性圖按類似直方圖(histogram)的方法繪製。首先將橫坐標和縱坐標的機率空間離散化得到有限個區間(bins),隨後統計預測值落入每個區間的樣本的真實值的頻率並繪製成線,作為其對預測值的條件機率分布的近似。
在樣本充足的情形下,可靠性圖可被用於分類器的校準,常見的方法是保序回歸(isotonic regression)。在多個分類器的集合研究中,通過可靠性圖篩選、校準得到一組行為相近的分類器可以提升集合預報的表現。

相關詞條

熱門詞條

聯絡我們