回歸稀釋

回歸稀釋

線性回歸中,當自變數 X 有誤差時,對因變數 Y 做最小二乘擬合所得斜率的絕對值會系統性地偏小。這一現象稱作 “回歸稀釋”。最小二乘擬合在 X 精確而 Y 有無偏誤差時,給出的斜率是無偏估計。如果 X 和 Y 都有誤差,當二者精度比已知時,可以用主成分分析得到修正的斜率。當精度比未知時,應選擇誤差較小的變數作為自變數 X,以減小 “回歸稀釋” 的影響。

基本介紹

  • 中文名:回歸稀釋
  • 外文名:regression dilution
  • 學科背景:機率統計、最小二乘擬合
  • 解決辦法:主成分分析、選擇誤差較小的變數為 X
最小二乘擬合,定性解釋,定量計算,

最小二乘擬合

給定一組測量數據點 (Xi, Yi),i = 1, 2, ..., n,最小二乘擬合尋找一條直線 Y = a + bX,最小化擬合殘差
令偏導數
,解得截距 a 和斜率 b 為
在 Xi 精確,Yi 誤差獨立、無偏、等精度的統計假設下,最小二乘法給出了 a 和 b 的最佳線性無偏估計

定性解釋

為了說明 “回歸稀釋” 現象發生的原因,我們考慮一個統計模型。設自變數 X 和因變數 Y 的真值 X* 和 Y* 嚴格滿足線性關係 Y* = a + bX*。二者測量值 X 和 Y 的無偏誤差滿足 X – X*~N(0,σx),Y – Y*~N(0,σy),且相互獨立
測量值 X 有誤差的後果,是導致了協方差 cov(X – X*, X) = σx> 0,即誤差 X – X* 與測量值 X 的正相關。數據集裡較大的測量值 X 更可能比真值 X* 偏大,致使〈Y〉= Y* = a + bX* < a + bX (設斜率 b > 0);較小的 X 更可能比真值 X* 偏小,致使〈Y〉>a + bX。故殘差失去了無偏性,使 Y 對 X 的最小二乘斜率偏小(負斜率 b < 0 時則偏大)。
另一種理解是從最小二乘斜率 b 的計算公式出發。X 有誤差和沒有誤差相比,其誤差成分平均而言並不貢獻 X 與 Y 的協方差,即分子不變;而分母裡面 X 的方差會增加,從而把回歸斜率 b 給 “稀釋” 了。

定量計算

最大似然估計可以求解上節的統計模型,得出斜率 b 的正確估計方法。首先,看到一個測量點 (Xi, Yi),我們要確定哪個真值 (Xi*, Yi*) 有最大的機率把它產生出來。這相當於沿著直線 Y* = a + bX* 尋找點 (X*, Y*) 距離點 (Xi, Yi) 的範數 ||X*-Xi, Y*-Yi|| = (X*-Xi) / σx + (Y*-Yi) / σy 最小。由於這裡的範數正好是 (X/σx, Y/σy) 空間中的歐式距離的平方,所得最概然真值 (Xi*, Yi*) 為測量點 (Xi, Yi) 到直線 Y* = a + bX* 的垂足。於是為確定直線參數 a 和 b,需要最小化 N 個點到直線距離的平方和。
仍得到
,保證回歸直線仍經過數據的質心
。而分母上也含斜率 b,使最小二乘斜率不再最小化 L。最佳斜率 b 指向 (X/σx, Y/σy) 空間中的主成分方向,最小化的損失函式 L 正好是與主成分正交的次成分的大小。如果不知道確切的精度比 σx / σy,則回歸時應該選擇誤差較小的變數作為 X,誤差較大的變數作為 Y,使得 bσx <<σy,從而儘可能降低 “回歸稀釋” 的影響。

相關詞條

熱門詞條

聯絡我們