大折刀法(jackknife)又名刀切法,是一種非參數估計方法。該方法是由昆納烏利(M.H.Quenouille)從減少偏差提出的,後由圖基加以推廣適合於很廣的一類統計問題,命名為大折刀法(是一種具有多種用途的刀),以表示這是一種具有多種用處的工具。這種方法可套用於抽樣調查中複雜統計量的估計。
基本介紹
- 中文名:大折刀法
- 外文名:jackknife method
- 所屬學科:數學(統計學)
- 別名:刀切法
- 簡介:一種非參數估計方法
基本知識,例題解析,
基本知識
大折刀法(刀切法)是統計推斷中基於數據再抽樣的計算機密集方法,它是對回報法的一種修正,與自助法(bootstrap)同屬於不依賴於分布的誤判機率估計法。刀切法最初由quenouille作為降低偏倚的一種方法提出,隨後成為一種區間穩健估計的方法。刀切法不要求假設總體分布呈正態,對於訓練樣本量為n的模型或鞏厚譽榜判別域,它通過t次剔除樣本之一,每次無放回地抽取她陵煉n-1個樣本重新構造模型(或判別域)並計算模型估計值(或利用這組新判別域判別剔除的樣本以計算誤判機率),利用這些估計值的變異性作為原始估計值變異性的估計值,提供對抽樣變異性、置信區間、偏倚度、誤判機率等的測度,並對分布未知的統計量進行推斷。刀切法與自助法的顯著不同在於前者是無放回地抽樣,而後者是有放回地抽樣。
無偏性是對估計方法的一個基本要求連符棗,在許多統計問題中,常常需要考慮如何得到一個無偏估計或如何減小一個有偏估計的偏。M.H.Quenoulli於1949年提出了一種稱為刀切法(Jackknife)的估計方法。
設 是來自某個總體分布為 的隨機樣本, 為基於 得到的 估計,令 為刪去第i個觀測後,由余下的n-1個觀測得到的 估計,i=1,2,…,n,用 表示 的平均,即 ,那么 的刀切估計為
的偏的刀切估計為
的標準誤差的刀切估計為
上面的式(2)說明 ,所以如果 的偏的刀切估計精確地估計了 的偏,那么 是 無偏估計。
例題解析
0.034 0.167 0.143 0.180 0.346 0.4460.558 0.593 0.615 0.648
0.650 0.744 0.853 0.913 0.970 1.003 1.009 1.237 1.436 1.537
1.650 1.669 1.778 1.984 1.995 2.054 2.395 2.458 2.579 2.624
2.726 2.741 2.858 2.877 2.998 3.009 3.124 3.451 3.516 3.540
3.657 3.717 4.097 4.171 4.967 6.469 6.902 7.435 8.023
由樣本中位數定義不難看出,這裡的樣本中位數為 =1.995.所有刀切樣本的中位數也容易得到:若刪除第一個觀測值x1,刀切中位數是餘下48個值的中位設斷影數,偶數個觀測的中位數為 =(1.995+2.054)/2=2.024 5,依次刪除下一個觀測,直到 =1.984,得到的刀切中位數都是同一值,即 =2.024 5,1≤i≤24。特別地,刪除X25後的刀切中位數是 =(1.984+2.054)/2=2.019。類似地,從刪除X26開始,直到刪除最後一個觀測值,都有相同的刀切中位數 =(1.984+1.995)/2=1.989 5,26≤i≤49。故它們的平均 =2.007 2,由式(3), =0.120 4。另一方面,由定理可知,對已知總體分布的大小為n的隨機樣本,中位數估計的標準誤差為 。此處, 是指數分布密度函式在 處的值,f=0.1 667,n=49,故 =0.428 5。兩者相差甚遠,原因在於刀切中位數隻取相鄰的三個數,且其中的兩個幾乎重複了一半,它缺乏變異,得到的是標準誤差的不足估計。
這就給出一個警告,即使戰姜戰頸是使用基於數據的分析方法,也必民項鍵須注意使用條件,此例中如果使用刀切法估計均值的標準誤差,不會產生上述問題,因為對每個被刪除的觀測,其刀切均贈刪值都不會相同。
由樣本中位數定義不難看出,這裡的樣本中位數為 =1.995.所有刀切樣本的中位數也容易得到:若刪除第一個觀測值x1,刀切中位數是餘下48個值的中位數,偶數個觀測的中位數為 =(1.995+2.054)/2=2.024 5,依次刪除下一個觀測,直到 =1.984,得到的刀切中位數都是同一值,即 =2.024 5,1≤i≤24。特別地,刪除X25後的刀切中位數是 =(1.984+2.054)/2=2.019。類似地,從刪除X26開始,直到刪除最後一個觀測值,都有相同的刀切中位數 =(1.984+1.995)/2=1.989 5,26≤i≤49。故它們的平均 =2.007 2,由式(3), =0.120 4。另一方面,由定理可知,對已知總體分布的大小為n的隨機樣本,中位數估計的標準誤差為 。此處, 是指數分布密度函式在 處的值,f=0.1 667,n=49,故 =0.428 5。兩者相差甚遠,原因在於刀切中位數隻取相鄰的三個數,且其中的兩個幾乎重複了一半,它缺乏變異,得到的是標準誤差的不足估計。
這就給出一個警告,即使是使用基於數據的分析方法,也必須注意使用條件,此例中如果使用刀切法估計均值的標準誤差,不會產生上述問題,因為對每個被刪除的觀測,其刀切均值都不會相同。