高維協變數污染複雜數據的統計分析研究

高維協變數污染複雜數據的統計分析研究

《高維協變數污染複雜數據的統計分析研究》是依託鄭州大學,由李鋒擔任項目負責人的聯合基金項目。

基本介紹

  • 中文名:高維協變數污染複雜數據的統計分析研究
  • 項目類別:聯合基金項目
  • 項目負責人:李鋒
  • 依託單位:鄭州大學
項目摘要,結題摘要,

項目摘要

高維協變數污染複雜數據普遍存在於生物、醫學和經濟等領域,協變數調整模型是處理此類數據的一類專有模型(Sentürk et al.2005)。現有成果主要集中在低維模型的統計分析, 少有高維協變數污染數據的研究成果。 本項目擬研究高維協變數調整模型的統計推斷,並結合現代變數選擇方法,研究存在協變數污染的高維協變數調整(廣義)線性模型、部分線性模型、半參變係數部分線性模型等模型選擇問題。主要研究內容包括:1、協變數調整半參變係數模型統計推斷;2、若干一般高維協變數調整模型的變數選擇方法研究;3、高維協變數調整半參變係數部分線性模型變數選擇研究;4、數值模擬與套用研究。研究目標是,在研究協變數調整模型推斷的基礎上,提出適應具有協變數污染調整模型的變數選擇方法;在合適條件下,研究估計量的漸近性質。以期對高維協變數污染複雜數據分析提供方法和理論上的支持。

結題摘要

協變數調整模型是處理回響變數和預測變數存在乘積扭曲測量誤差的一類專有回歸模型,以高維數據,大數據為特徵的數據時代也給統計帶來了新的研究機遇。項目執行期間,我們在協變數調整模型的估計與變數選擇方面取得了一些如下的研究成果:(1)潛變數數據的恢復是協變數調整模型推斷的首要環節,我們創新性地提出了一種恢複數據的方法,該方法能夠適應於觀測變數的分布特徵,需要更弱的假設條件,且通過選擇合適的權重函式可以有效的減小估計量的方差,從而使得估計具有更高的效率。(2)基於新的恢複數據方法,我們研究了協變數調整非參數回歸模型的NW估計、局部線性估計;協變數調整變係數模型的局部線性估計及函式係數的檢驗;協變數調整半參變係數部分線型模型的profile最小二乘估計,並得到了非參數估計量和參數估計量的漸近性質。(3)結合懲罰函式,我們研究了協變數調整線性模型的lasso與adaptive lasso變數選擇方法;研究了變數維數趨於無窮大情形下線性回歸模型的adaptive Dantzig變數選擇方法;基於group lasso思想和scad懲罰函式,研究了協變數調整變係數模型的模型診斷與變數選擇,所提出的方法可以同時選出重要的變數和診斷非零常數係數和函式係數,在正則條件下,還得到了估計量的oracle性質。(4)非參數估計量和壓縮估計均為有偏估計,據有偏估計的漸近表示式,我們提出了一類漸近加權最小二乘的複合估計,所得估計量能夠有效減小估計的偏差或方差,且能夠克服估計中對討厭參數的依賴。(5)此外,我們還研究了單指標模型的分位數回歸估計與變數選擇,研究了隨機缺失數據下非線性回歸模型的經驗似然估計。接下來,我們還將研究協變數調整模型的複合分位數回歸估計以及經驗似然估計,以及協變數調整模型的檢驗等方面的問題。

相關詞條

熱門詞條

聯絡我們