Mallows\x27s Cp

Mallows\x27s Cp

在統計學中,馬洛斯(Colin Lingwood Mallows)提出運用Cp去評估一個以普通最小二乘法(Ordinary Least Square或OLS)為假設的線性回歸模型的優良性,從而用於模型選取(Model Selection)。當模型中含有多個自變數(Independent Variables或Explanatory Variables),使用Mallows’s Cp 可以為模型精選出自變數子集。Cp數值越小模型準確性越高。對於高斯線性模型(Gaussian Linear Regression),馬洛斯的Cp值被證明與赤池信息準則(Akaike Information Criterion或AIC)等效。

其他模型選取方法還有貝葉斯信息準則(Bayesian Information Criterion 或BIC)以及調整後的R方(Adjusted R-Squared)。

基本介紹

  • 中文名:馬洛斯Cp
  • 外文名:Mallows's Cp
  • 用途:模型選取,優選自變數子集
  • 學科:統計
原理,假設及定義,假設,定義,局限性,實用性,

原理

模型選擇統計量如殘差平方和(Residual Sum of Squares)隨著模型包含的自變數數量增多而減少,由此可導致過度擬合(Overfitting)的問題,即自變數數量過多導致模型預測能力下降。藉助Mallows’s Cp 篩選自變數子集可以有效控制參數數量,從而達到最佳化模型的目的。Cp統計量的計算基於一個數據樣本,用於估計均方預測誤差(Mean Squared Prediction Error 或MSPE)作為總體目標值:
指代在j情形下回歸模型中的擬合值(fitted Value)
指代在j情形下回歸模型中的期望值(Expected Value)
指代誤差方差,假設在各情形下保持不變
MSPE不一定隨著自變數數量的增加而減少。最優模型條件由樣本大小(Sample Size),自變數數量及組合以及其間的多元共線性(Collinearity)共同決定。

假設及定義

假設

假設線性原回歸模型(Full Model):
模型自變數係數為
; 模型誤差為
如果K>p, 從K個自變數中篩選p個回歸自變數,子回歸模型(Reduced Model):
模型自變數係數為
;模型誤差為

定義

原回歸模型為基礎,其可能的一個子回歸模型
統計值定義
其中, n是樣本大小,MSE是均方誤差(Mean Square Error),SSE是誤差平方和(Sum of Square Error)
,指代原回歸模型中的誤差平方和
,指代在含K個自變數的線性回歸模型中對第i個y樣本數據的擬合值
,指代原回歸模型中的均方誤差
,指代子回歸模型中的誤差平方和

相關詞條

熱門詞條

聯絡我們