密度估算

密度估算是利用機率論的知識來估計未知目標的密度,是一種非參數檢驗方法。

基本介紹

  • 中文名:密度估算
  • 套用領域:機率統計
  • 作用:檢驗機率密度
方法分類,直方圖到密度估算,密度估算中頻寬的選擇,

方法分類

1、參數估計方法
簡單來講,即假定樣本集符合某一機率分布,然後根據樣本集擬合該分布中的參數,例如:似然估計,混合高斯等,由於參數估計方法中需要加入主觀的先驗知識,往往很難擬合出與真實分布的模型;
2、非參數估計
和參數估計不同,非參數估計並不加入任何先驗知識,而是根據數據本身的特點、性質來擬合分布,這樣能比參數估計方法得出更好的模型。核密度估計就是非參數估計中的一種,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。Ruppert和Cline基於數據集密度函式聚類算法提出修訂的核密度估計方法。

直方圖到密度估算

給定一個數據集,需要觀察這些樣本的分布情況,往往我們會採用直方圖的方法來進行直觀的展現。該方法簡單,容易計算,但繪製直方圖時,需要確定bins,如果bins不同,那么最後的直方圖會產生很大的差別。如下面的兩直方圖,右邊比左邊的直方圖多劃分了bins,導致最後的結果有很大的差別,左邊時雙峰的,右邊時單峰的。
除此之外,直方圖還存在一個問題,那就是直方圖展示的分布曲線並不平滑,即在一個bin中的樣本具有相等的機率密度,顯然,這一點往往並不適合。解決這一問題的辦法時增加bins的數量,當bins增到到樣本的最大值時,就能對樣本的每一點都會有一個屬於自己的機率,但同時會帶來其他問題,樣本中沒出現的值的機率為0,機率密度函式不連續,這同樣存在很大的問題。如果我們將這些不連續的區間連續起來,那么這很大程度上便能符合我們的要求,其中一個思想就是對於樣本中的某一點的機率密度,如果能把鄰域的信息利用起來,那么最後的機率密度就會很大程度上改善不連續的問題。
密度估算

密度估算中頻寬的選擇

在密度函式確定之後,比如上面選擇的高斯核,那么高斯核的方差,也就是h(也叫頻寬,也叫視窗,我們這裡說的鄰域)應該選擇多大呢?不同的頻寬會導致最後的擬合結果差別很大。同時上面也提到過,理論上h->0的,但h太小,鄰域中參與擬合的點就會過少。那么藉助機器學習的理論,我們當然可以使用交叉驗證選擇最好的h。另外,也有一個理論的推導給你選擇h提供一些信息。
在樣本集給定的情況下,我們只能對樣本點的機率密度進行計算,那擬合過後的機率密度應該核計算的值更加接近才好,基於這一點,我們定義一個誤差函式,然後最小化該誤差函式便能為h的選擇提供一個大致的方向。選擇均平方積分誤差函式(mean intergrated squared error)。

相關詞條

熱門詞條

聯絡我們