Lasso算法

Lasso算法

LASSO是由1996年Robert Tibshirani首次提出,全稱Least absolute shrinkage and selection operator。該方法是一種壓縮估計。它通過構造一個懲罰函式得到一個較為精煉的模型,使得它壓縮一些係數,同時設定一些係數為零。因此保留了子集收縮的優點,是一種處理具有復共線性數據的有偏估計。

基本介紹

  • 中文名:最小絕對收縮和選擇算法
  • 外文名:Least Absolute Shrinkage and Selection Operator
  • 英文縮寫:LASSO
LASSO 的基本思想,lasso回歸,LASSO 分析中出現的問題,LASSO 的優點,

LASSO 的基本思想

LASSO 的基本思想是在回歸係數的絕對值之和小於一個常數的約束條件下,使殘差平方和最小化,從而能夠產生某些嚴格等於 0 的回歸係數,得到可以解釋的模型,其數學表達式如下:
其中 t > 0,是調整參數,通過控制調整參數 t 可以實現對總體回歸係數的壓縮。t 值的確定可以利用Efron
和 Tibshirani ( 1993 )提出的交叉驗證法來估計。這個數學表達式還等價於最小化下述懲罰最小二乘法:
其中 a 與 t 一一對應,可以互相轉換。LASSO 方法的主要優勢在於其對參數估計較大的變數壓縮較小,而參數估計較小的變數壓縮成 0,並且 LASSO 分析的參數估計具有連續性,適用於高維數據的模型選擇.Tibshirani 在2005 年提出了 Fused LASSO 方法,這個估計方法滿足了模型係數以及係數差分的稀疏性,使得鄰近係數間更加平滑。

lasso回歸

lasso回歸的特色就是在建立廣義線型模型的時候,這裡廣義線型模型包含一維連續因變數、多維連續因變數、非負次數因變數、二元離散因變數、多元離散因變,除此之外,無論因變數是連續的還是離散的,lasso都能處理,總的來說,lasso對於數據的要求是極其低的,所以套用程度較廣;除此之外,lasso還能夠對變數進行篩選和對模型的複雜程度進行降低。這裡的變數篩選是指不把所有的變數都放入模型中進行擬合,而是有選擇的把變數放入模型從而得到更好的性能參數。 複雜度調整是指通過一系列參數控制模型的複雜度,從而避免過度擬合(Overfitting)。 對於線性模型來說,複雜度與模型的變數數有直接關係,變數數越多,模型複雜度就越高。 更多的變數在擬合時往往可以給出一個看似更好的模型,但是同時也面臨過度擬合的危險。
lasso的複雜程度由λ來控制,λ越大對變數較多的線性模型的懲罰力度就越大,從而最終獲得一個變數較少的模型。除此之外,另一個參數α來控制應對高相關性(highly correlated)數據時模型的性狀。 LASSO回歸α=1,Ridge回歸α=0,這就對應了懲罰函式的形式和目的。我們可以通過嘗試若干次不同值下的λ,來選取最優λ下的參數,還可以結合CV選擇最優秀的模型。

LASSO 分析中出現的問題

在 LASSO 分析中,可能會出現過度壓縮非零係數的情況,增大了估計結果的偏差,使估計結果不具有相合性。為了提高 LASSO 方法的相合性和準確性,Zou H( 2006 )提出了自適應的 LASSO 方法,其把LASSO 中的懲罰項修正為:
其中 βj是最小二乘估計係數。自適應 LASSO 分析的重要意義在於當樣本量趨於無窮且變數個數維持不變時,其估計結果具有相合性,並且這些參數估計的結果與事先給定的非零變數位置的最小二乘得到的參數估計的分布漸進相同。直接將自適應 LASSO 的想法套用到水平壓縮方差分析中,其數學表達式如下:

LASSO 的優點

LASSO算法在模型係數絕對值之和小於某常數的條件下,謀求殘差平方和最小,在變數選取方面的效果優於逐步回歸、主成分回歸、嶺回歸、偏最小二乘等,能較好的克服傳統方法在模型選取上的不足。
通過查閱文獻,發現基於 LASSO 算法的變數選取方法可以很好地解決上述問題。

相關詞條

熱門詞條

聯絡我們