偏最小二乘法

基本公式

偏最小二乘回歸≈多元線性回歸分析+典型相關分析+主成分分析

與傳統多元線性回歸模型相比，偏最小二乘回歸的特點是：

（1）能夠在自變數存在嚴重多重相關性的條件下進行回歸建模；

（2）允許在樣本點個數少於變數個數的條件下進行回歸建模；

（3）偏最小二乘回歸在最終模型中將包含原有的所有自變數；

（4）偏最小二乘回歸模型更易於辨識系統信息與噪聲（甚至一些非隨機性的噪聲）；

（5）在偏最小二乘回歸模型中，每一個自變數的回歸係數將更容易解釋。

在計算方差和協方差時，求和號前面的係數有兩種取法：當樣本點集合是隨機抽取得到時，應該取1/(n-1)；如果不是隨機抽取的，這個係數可取1/n。

經驗式診斷法

1、在自變數的簡單相關係數矩陣中，有某些自變數的相關係數值較大。

2、回歸係數的代數符號與專業知識或一般經驗相反；或者，它同該自變數與y的簡單相關係數符號相反。

3、對重要自變數的回歸係數進行t檢驗，其結果不顯著。

特別典型的是，當F檢驗能在高精度下通過，測定係數R2的值亦很大，但自變數的t檢驗卻全都不顯著，這時，多重相關性的可能性將很大。

4、如果增加（或刪除）一個變數，或者增加（或刪除）一個觀測值，回歸係數的估計值發生了很大的變化。

5、重要自變數的回歸係數置信區間明顯過大。

6、在自變數中，某一個自變數是另一部分自變數的完全或近似完全的線性組合。

7、對於一般的觀測數據，如果樣本點的個數過少，樣本數據中的多重相關性是經常存在的。

但是，採用經驗式方法診斷自變數系統中是否確實存在多重相關性，並不十分可靠，另一種較正規的方法是利用統計檢驗（回歸分析），檢查每一個自變數相對其它自變數是否存在線性關係。

方差膨脹因子診斷法

最常用的多重相關性的正規診斷方法是使用方差膨脹因子。自變數xj的方差膨脹因子記為（VIF）j，它的計算方法為

（4-5）（VIF）j =（1-R j2）-1

式中，R j2是以xj為因變數時對其它自變數回歸的複測定係數。

所有xj變數中最大的（VIF）j通常被用來作為測量多重相關性的指標。一般認為，如果最大的（VIF）j超過10，常常表示多重相關性將嚴重影響最小二乘的估計值。

（VIF）j被稱為方差膨脹因子的原因，是由於它還可以度量回歸係數的估計方差與自變數線性無關時相比，增加了多少。

不妨假設x1,x2,…,xp均是標準化變數。採用最小二乘法得到回歸係數向量B，它的精度是用它的方差來測量的。B的協方差矩陣為

Cov(B)= σ2 (X'X)-1

式中，σ2是誤差項方差。所以，對於回歸係數b j，有

Var(b j)= σ2cjj