稀疏化模型

稀疏模型在機器學習和圖像處理等領域發揮著越來越重要的作用,它具有變數選擇功能,可以解決建模中的過擬合等問題.Tibshirani提出的Lasso使得正則化稀疏模型真正開始流行.稀疏化模型包含稀疏模型,組稀疏模型,樹稀疏模型和圖稀疏模型。

基本介紹

  • 中文名:稀疏化模型
  • 外文名:sparse model
稀疏模型,組稀疏模型,樹稀疏模型,圖稀疏模型,

稀疏模型

稀疏模型將大量的冗餘變數去除,只保留與回響變數最相關的解釋變數,簡化了模型的同時卻保留了數據集中最重要的信息,有效地解決了高維數據集建模中的諸多問題。稀疏模型具有更好的解釋性,便於數據可視化、減少計算量和傳輸存儲。1996年Tibshirani把嶺回歸估計的L2範數罰正則化項替換為L1範數罰正則化項得到了Lasso(Least Absolute Shrinkage and Selection Operator, Lasso)。L1範數罰具有產生稀疏模型的能力,使用L1範數罰作為正則化項的Lasso具有變數選擇功能和變數空間降維功能。實際上在Lasso之前已有能夠產生稀疏解的非負絞刑估計 (nonnegative garrote estimator)和橋回歸(bridge regression)模型被提出,但由於缺少高效的求解算法因而沒有引起足夠的重視,而自從Lasso這種稀疏模型以及可對其有效求解的LAR算法(Least Angle Regression, LAR)被提出後,稀疏模型才得到了廣泛深入的研究,並在機器學習、數理統計和生物信息學等領域逐漸流行起來。

組稀疏模型

Lasso在進行變數選擇時不具有組效應,所謂組效應指的是某些變數作為一個整體被同時選中進而參與模型的構造,或同時從模型中移除進而不參與模型的構造,即具有變數組選擇的效果。自動組效應在文獻[20]中首先被提出,其含義為某種估計方法令那些彼此之間高度相關的變數的回歸係數的絕對值(幾乎)相等,從而傾向於將全部高度相關的變數作為一個組同時選中或同時移除,但自動組效應只能實現對高度相關變數的組選擇效果。自動組效應稀疏模型可被分為三類:一類為通過嶺罰實現自動組效應的稀疏模型,包括彈性網、彈性SCAD、兩兩彈性網和跡Lasso;另一類為通過對回歸係數之差施加 範數罰從而實現自動組效應,包括融合Lasso、兩兩融合Lasso、HORSES模型、加權兩兩融合Lasso和彈性相關網;第三類為利用兩兩無窮範數罰實現自動組效應,包括OSCAR模型。

樹稀疏模型

把組之間的重疊結構也作為先驗信息引入到罰函式中,得到重疊組套索,實際上,許多數據不但具有組結構,而且組之間存在偏序關係,即樹結構。當處理這種數據時,需要充分利用樹結構作為先驗信息。得到樹結構稀疏模型。

圖稀疏模型

套索模型(Lasso)由估計損失項和 範數罰項組成,其通過範數罰實現稀疏化學習。自從套索模型被提出後,稀疏化學習方法迅速發展,其中一種重要的研究方向為將稀疏化學習思想套用到圖模型的結構和參數學習中。精度矩陣(precision matrix)是圖模型中全部隨機變數的協方差矩陣的逆矩陣,它同時包含了圖模型中的結構信息和參數信息,故通過對精度矩陣的學習可同時獲得機率圖模型的結構信息和參數信息,因此對圖模型的稀疏化學習問題本質上是對精度矩陣的稀疏化學習問題,該問題又被稱作稀疏化協方差選擇(covariance selection)問題。圖按邊有無方向分為有向圖模型(貝葉斯網路)和無向圖模型(馬爾科夫網路)。圖稀疏模型也有貝葉斯網路和馬爾科夫網路稀疏模型。

相關詞條

熱門詞條

聯絡我們