高維數據降維和變數選擇的若干穩健方法研究

《高維數據降維和變數選擇的若干穩健方法研究》是依託北京航空航天大學,由趙俊龍擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:高維數據降維和變數選擇的若干穩健方法研究
  • 依託單位:北京航空航天大學
  • 項目負責人:趙俊龍
  • 項目類別:青年科學基金項目
項目摘要,結題摘要,

項目摘要

在高維數據分析中,穩健的降維和變數選擇方法是一個研究熱點。許多降維方法從不同的角度考慮了穩健性,比如,對異常值的穩健,對參數選擇的穩健以及對回歸變數分布的穩健等。充分降維方法中,許多方法採用了平方損失,是不穩健的;而已有的稀疏充分降維方法,主要利用了L1懲罰的思想,對於懲罰參數的選擇也是不穩健的。穩健充分降維方法需要進一步深入研究,而穩健的稀疏降維方法的相關研究還很少。本項研究包括三個內容:(1)基於指數損失和hinge損失的穩健降維方法研究;(2)基於(複合)分位點回歸的穩健降維方法研究;(3)基於隨機化思想的穩健稀疏降維方法研究。這些在已有方法中還沒有相關研究。本項研究將發展新的穩健降維方法和穩健稀疏降維方法,具有重要的理論意義;本項研究對於進一步提高降維方法在金融、生物、醫學等實際套用中的表現有很大幫助,具有較高的套用價值。

結題摘要

隨著信息技術的發展,數據採集能力有了很大的提高。對高維數據建模成為越來越普遍的問題。高維數據的一個特點是信號弱,噪音大。已有的高維數據分析方法中,對穩健性的考慮還不充分。本項目重點是考慮高維數據建模中的穩健降維方法,針對不同的套用背景發展相應的統計方法,研究其理論性質並進行模擬和實際數據分析。 本項研究按照計畫展開,取得了較好的成果。共發表論文近十篇,完成論文3篇,其中在The Annals of Statistics 發表論文1篇,Statistic Sinica 發表論文1篇。主要成果有如下幾個方面。 (1)穩健的充分降維方法研究。已有充分降維方法中大多假設回歸變數具有常態分配或橢圓分布。但是實際問題中,上述假設不一定能滿足。 本項目對已有充分降維方法的切片當中的點的不同作用進行了分析, 提出了加權穩健降維方法。 (2)兩階段降維方法研究。 在降維方法的研究中,一類方法是將降維與回歸或分類同時進行,比如LASSO等方法;另一類方法是所謂兩階段降維方法,即首先對數據進行降維,然後利用已有的回歸或分類方法對降維之後的數據進行處理。兩階段降維方法思路簡單,被廣泛套用。在兩階段建模方法中,大多數文獻側重於第一階段降維方法的研究,而對降維方法對後續回歸或分類影響考慮不足。在機器學習領域中,boosting方法是常用的分類方法。 作者研究了降維方法對boosting方法的影響。給出了兩階段降維boosting分類方法相合性的充分條件。 (3)對高維影響點診斷。本項目研究了高維數據回歸建模中的影響點的診斷問題。總所周知,影響點對回歸有很重要的影響;可能導致錯誤的模型或者回歸係數估計不相合等等。在回歸變數維數比較低的情況下,Cook 距離是一個比較常用的用來診斷異常點的統計量,但是Cook 距離等方法無法直接套用與高維數據情形。本項研究給出了新的高維影響點診斷方法,相關結果發表在頂級期刊The Annals of Statistics。 (4)矩陣數據的變數選擇。實際問題中經常遇到回歸變數X是矩陣的數據類型,如腦電波等。在這類數據中,同行同列的變數往往有共同的屬性,人們關心哪些行和列的屬性對回響變數Y有影響。簡單利用LASSO等方法會破壞了數據的行和列的內在結構,不能實現對行屬性和列屬性的選擇。作者提出了structure lasso方法,可以對行和列進行選擇。

相關詞條

熱門詞條

聯絡我們