概念
回歸診斷主要用於檢驗關於回歸假設是否成立,以及檢驗模型形式是否錯誤,否則我們通過
最小二乘法求得的
回歸方程就缺乏理論依據。這些檢驗主要探究的問題為:
1) 殘差是否為隨機性、是否為正態性、是否不為異方差;
2)高度相關的自變數是否引起了共線性;
3)模型的函式形式是否錯誤或在模型中是否缺少重要的自變數;
4)樣本數據中是否存在異常值。
發展歷程
隨著高速電子計算機的日益廣泛套用,
回歸分析愈來愈成為各個領域科技工作者分析數據的一種常用工具。但是,在長期地廣泛實際套用中,人們逐漸地發現經典的最小二乘估計的結果並不總是令人滿意,於是統計學家們從多方面進行努力試圖改進最小二乘估計,例如,為了克服設計陣的病態性,提出了以嶺估計為代表的多種有偏估計。為了解決
自變數個數較多的大型回歸模型的變數取捨問題,提出了眾多的回歸自變數選擇準則和算法。為了克服最小二乘估計對異常值的敏感性,提出了各種
穩健回歸。為了考察模型假設條件的合理性及數據對統計推斷影響大小,逐漸發展起來了“
回歸診斷”這一新的研究領域。以上諸方面的新結果構成了回歸分析近期發展的主體。
分類
從總體上講,回歸診斷尚屬較新的研究分支,因此關於它的研究範圍及採用的術語,在各家筆下也不盡相同。這裡,把殘差分析、數據變換和影響分析等統統包羅在回歸診斷這個總題目下。這是因為殘差分析和數據變換可以看作模型的診斷,而影響分析則看作數據的診斷。
1.殘差分析
回歸診斷中要解決的第一個基本問題——模型假設的合理性,不少文獻概括為
殘差分析。這是因為這個問題的解決在很大程度是靠對
殘差作種種統計分析來實現。
在回歸診斷中,殘差分析的發展雖然相對說來比較早,但也只是廿年前的事.究其原因主要是這類問題計算量都很大,只有現代電子計算技術得到廣泛套用之後,它的研究和套用才能成為可能。
殘差是最重要的一種回歸診斷量,它蘊含了有關模型基本假設的許多重要信息。殘差分折就是對殘差進行統計處理,從中提煉出這些信息的方法.基於不同的考慮和模型的不同用處,人們定義了許多種殘差——普通殘差,學生化殘差,遞歸殘差、偏殘差等。
殘差圖是殘差分析的一個重要工具.它通過簡單的圖示直觀地顯示出殘差的各種趨勢,以更方便診斷出模型假設的某些不合理性。
2.數據變換
當對數據作了殘差分析,,發現模型的某些假設不滿足或不能近似滿足時,我們需要對數據作適當變換。在這裡,最重要的變換類是Box-Cox的冪變換,它已得到廣泛套用。
這方面的近期研究多集中在如下三方面:
2.變換參數的估計;
3.數據對變換參數的影響。
3.影響分析
回歸診斷所要研究的另一個重要問題是,探查對統計推斷(如估計或預測)有較大影響的試驗數據。說話方便起見,我們沿用一些文獻的術語,稱其為影響分析(Influence Analysis)。
與殘差分析相比,影響分析的發展比較晚,大致是十年前的事。但近年來發展比較快,雖然目前的研究還局限於一組數據或多組數據的影響問題,但研究的領域已經遠遠超出了線性回歸的範圍,在非線性回歸,1091就回歸,時間序列分析以及主成分分析等方面已經出現了一些工作。
一般說來,我們期望每組數據
對統計推斷都有一定影響,但這種影響又不要過大,不然的話,如果某組數據的影響過大,那末包含這組數據的經驗回歸方程與不包含這組數據的經驗回歸方程差異很大,於是經驗回歸方程關於數據就不具有“穩定”性。
在這裡,需要研究兩個基本問題:一是模型擾動的方式;二是度量擾動對統計推斷影響大小的標準。
對前一問題,目前的研究所採用的擾動方式多為每次剔除一組或多組數據.這似乎沒有更多討論的餘地.而對後一個問題,人們從各種不同的角度出發,提出了許多度量影響的標準。如
Cook距離、AP-統計量、似然距離等。
未來發展
目前,回歸診斷已經有了一定的發展,但現有的結果還遠遠不能滿足套用實踐的需要。為了不同的目的,還需要引進一些新的診斷量。此外,診斷方法一般計算量都很大,因此建立節省的算法也是很迫切的。面對著這些情況,對回歸診斷的研究提出了一些原則,歸納起來主要有
1.診斷方法在正確模型和某些條件不滿足的模型下的統計性質應該是已知的或近似已知;
2.診斷量應當儘可能從模型參數化來導出,這樣就把模型診斷問題歸結為參數推斷;
3.好的診斷量應當有有效的圖法;
4.診斷方法本身應該建議數據的“治療”方案。