穩健統計

基本信息

數理統計學的一個方面，研究當總體假定稍有變動及記錄數據有失誤時，統計方法的適應性問題。一個統計方法在實際套用中要有良好的表現,需要兩個條件:一是該方法所依據的條件與實際問題中的條件相符；二是樣本確是隨機的，不包含過失誤差，如記錄錯誤等。但實際套用中這些條件很難嚴格滿足，比方說，原來在提出該方法時是依據總體分布為常態分配的假定，但實際問題中總體的分布與正態略有偏離；或在大量的觀測數據中存在受到過失誤差影響的“異常數據”等。如果在這種情況下，所用統計方法的性能僅受到少許影響，就稱它具有穩健性。

穩健性一詞是G.E.P.博克斯在1953年提出的，但關於穩健性的思想，可追溯到20世紀初期，有些穩健性統計方法,如下文提到的修削平均,使用還要早些。從1960年J.W.圖基發表他的工作以來，這方面的工作得到更多統計學家的重視。1964年P.J.休伯發表了他關於M估計的工作，進一步推動了它的發展。到1980年為止關於這方面的工作，已由休伯寫成專著。

對總體分布的穩健性設當總體分布為F時,統計方法T的某項性能指標為AT(F),例如，T可以是F的數學期望的估計,而AT(F)為T的方差;若在某項實際套用中,真實的總體分布為F,而該項性能指標取值AT(F)。以距離p(F，F)刻畫F與F的差異，比如，p(F，F)可以是|F(x)-F(x)|對x取的最大值。如果當 P(F，F)充分小時,|AT(F)-AT(F)|也充分小,則稱方法T具有對總體分布的穩健性。可見，統計方法的穩健性與考慮的性能指標有關，也與分布的距離p(F，F)的定義有關。因此,怎樣定義適當的距離p(F,F)，研究各種距離的性質及相互關係，怎樣選擇適當的性能指標作為衡量穩健性的依據等，是穩健統計研究的一方面的內容。

通常使用的很多統計方法，是在總體分布為正態的前提下導出的，理論上也證明了，在正態總體的情況下這些方法具有某種優良的性能。但在大多數具體問題中，正態假定往往只是近似地滿足，若一個統計方法缺乏穩健性，則它理論上可能有某種優良性能，而在實際套用中卻表現很差，甚至面目全非。因此，穩健性的研究是一個有很大實際意義的課題。

圖基在1960年提供了這樣的例子:設x1,x2,…，xn是抽自正態總體N(μ,σ)的樣本，要估計σ,常用的估計量

是標準常態分配函式,則可以算出，當ε=0.05時，捛n和dn的方差比的極限超過2。就是說，即使像0.05這么小的污染程度也足以使捛n遠不如dn的一半。因此捛n作為σ的估計穩健性較差，而相對地說dn的穩健性就較捛n好。

理論研究表明:像F檢驗(見假設檢驗、方差分析)之類的與總體方差有關的統計方法，其性能多與總體的正態性有較強的依賴關係，穩健性較差；而與總體均值有關的統計方法,如t檢驗之類，穩健性相對說來要好一些。

對異常數據的穩健性由於在大量次數的試驗或觀測中，很難完全避免出現個別疏忽，因此，要使統計方法有較好的穩健性，就必須要求，它所依據的統計量不受個別異常數據的太大影響。一個典型的例子是用樣本均值或樣本中位數（見統計量）去估計常態分配的均值，前者受個別異常數據的影響較大，而後者則幾乎不受到影響，故從穩健性角度看，後者優於前者。介於兩者之間的有所謂修削平均，即給定自然數k<n/2（n為樣本大小）,把全部樣本x1，x2,…，xn中最大的k個和最小的k個捨棄，餘下的n-2k個的算術平均值稱為修削平均值，k愈大，修削愈多，如果有少量異常數據混入,則在修削時被捨棄了，因而不致造成危害。這是一個較早的穩健統計方法，但被廣泛使用。

穩健統計

基本介紹

基本信息

其他信息

相關詞條

熱門詞條