穩健變數選擇與高維數據分析

《穩健變數選擇與高維數據分析》是依託北京師範大學,由崔恆建擔任項目負責人的面上項目。

基本介紹

  • 中文名:穩健變數選擇與高維數據分析
  • 依託單位:北京師範大學
  • 項目負責人:崔恆建
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

眾所周知,當誤差分布或因變數的分布偏離了理論假定分布時,基於講希寒懲罰多茅最小二乘或正態似然的變數選擇方法及其參數估計方法將很不穩定,甚至遭到破壞。本項目致力於穩健變數選擇研究及其高維數據分析問題的研究,對若干常用統計模型特別是(部分)線性(EV)模型,研廈兆罪挨究當誤差分布或因變數的分布偏離了理論假定分布時,採用懲罰最小二乘,LASSO,SCAD等變數選擇方法,對變數選擇和參數估計的影響和效率問題,並對這些方法進行比較;提出新的比較穩健的變數選擇和參數估計方法,獲得參數估計的有關穩健性質和大樣本性質。同時我們還將穩健變數選擇方法套用於基因識別和遙感數據淋探婚探索性分析等實際領域。總之,我們的研究涉及模型和變數選擇穩健性的諸多主要方面,其研究將為高維數據分析和穩健變數選擇提供豐富的理論基礎和科學依據,對變數選擇和穩健統計的發展具有重要意義。

結題摘要

穩健變數選擇與高維數據的分析在大數據時代已受到人們的廣泛關注,本項目對穩健變數選擇和高維數據分析方法及其統計推斷進行了深入研究,獲得的主要研究成果包括:1. 對常用變數選擇的方法歸刪辨笑進行了全面總結,並在百科全書上發表。對幾類常見統計模型提出了Adaptive Huberized Lasso 方法,證酷兆戒明了Oracle 性質,獲得了其影響函式。獲得了一般變數選擇的Oracle性質和非零參數的漸近正態及其穩健等性質。提出了對非線性帶測量誤差模型中的去噪參數估計,獲得了LSE估計和穩健M-估計的性質。2. 獲得了高維情形傳統F-檢驗的功效,提出了U-檢驗方法,獲得了理論功效函式,並對高維稀疏部分懲罰似然檢驗比檢驗和高維協方差的結構高維稀疏參數空間上盛達迎的假設檢驗等問題進行了深入研究,獲得了諸多優良理論性質。3.給出了相應Wilk’s定理成立的一般條件,解決了本領域中用半參數經驗似然方程方法構造參數經驗似然置信區域的Wilk’s 定理成立的條件問題,對帶有缺失數據的線性EV模型中參數的經驗似然比置信區域進行了研究,獲得諸多優良結果。4. 針對幾類常見統計模型,分別提出了穩健SIEVE-估計、T-型估計、M-估計、 Huber-Dutter估計,獲得了估計的相合性,漸近正態性,收斂速度等優良性質,進行了模擬和穩健性比較。5. 提出了新的穩健判別方法,套用到蛋白質和水稻基因數據的統計分析中去;對腦卒中實際數據進行了變數選擇和數據分析,獲得了重要而有實際意義的影響腦卒中病人的環境因子;分析了北京市產業結構對經濟成長的貢獻,獲得有意義的結果並提出相應對策。這些問題的研究和解決為探索性數據分析和穩健變數選擇,參數估計與檢驗的發展提供了新思想、新方法。

相關詞條

熱門詞條

聯絡我們