基於分位數回歸的高維數據降維及變數選擇研究

基於分位數回歸的高維數據降維及變數選擇研究

《基於分位數回歸的高維數據降維及變數選擇研究》是依託廈門大學,由張慶昭擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於分位數回歸的高維數據降維及變數選擇研究
  • 項目類別:青年科學基金項目
  • 項目負責人:張慶昭
  • 依託單位:廈門大學
項目摘要,結題摘要,

項目摘要

高維及超高維數據是當今社會多個領域經常碰到的數據類型,能否有效的對其進行統計分析具有非常重要的意戀膠元記義。通過構造協變數的線性組合,降維能夠很好地處理高維數據回歸分析。以往的降維多集中於中心(均值)子空間上的研究,但現實生活中人們可能更加關心不同分位數上協變數對回響變數的影響。本項目擬針對中心分位數子空間進行研究,給出識別該子空間的方法。本項目還擬考慮利用組合分位數回歸識別中心子空間,並擬構建中心分位數子空間到中心子空間的橋樑。另一方面,狼背檔大量的研究結果表明模型是稀疏的,也即只有一部分變數是真正與回響變數有關的。因此,本項目還擬研究高維及超高維數據下基於分位數回歸的同時降維和變數選擇方法。本項目擬從理論上研究以上研究內容對應估計的大樣本性質,並利用數值模擬研究所提方法在有限樣本下的表現。

結題摘要

高維及超高維數據是當今社會多個領域經常碰到的數據類型,能否有效的對其進行統計分析具有非常重要的意義。本項目主要在高維數據分析方法,分位數回歸等穩墓旋禁健方法以及半參數降維模型三方面開展研究。針對高維數據分析方府雄鴉向,開展了以下工作。首先,我們在高維協變數加速失效時間模型淋酷下研究了多數據集整合分析方法,並對方法的大樣本理論性質給出了完整嚴謹的證明。這項成果不僅總結了已有的相關研究工作,而且首次系統地研究這些方法的理論性質。接著在高維協變數加速失效時間模型下,我們研究了低維感興趣參數的統計推斷問題。利用懲罰和投影方法,將高維協變數的影響考慮進來,使得得到的感興趣參數的漸進收斂尋察試戀速度能夠達到根號n。最後,我們利用刀切經驗似然方法研究了高維回歸係數的檢驗問題,理論證明在原假設下檢驗統計量漸近卡方分布,而且在備擇假設下趨於無窮。模擬發現所提方法更夠很好控制第一類錯誤,同時相比其他方法具有更高的功效。針對穩健方法研究,我們首先提出了兩種基於懲罰分位數回歸估計的基因環境互動變數篩選方法。不同於以往高維篩選方法,我們利用懲罰分位數估計,並設計了有效可行算法實現。模擬表明所提方法能夠適應異常點或重尾分布,相比最小二乘方法更穩健。另外,我們提出了一種多晚夜加權Wilcoxon估計,使用間接方法估計ROC曲線。相比之前的研究,所提方法更適合重建模型框架,且對回響變數和協變數都是是穩健的。最後,我們還研究了加權Wilcoxon估計在模型選擇和模型平均上的理論性質,主要是在FIC信息準則下開展的研究。針對降維模型方面,我們提出了單指標變係數模型的有效估計方程,並證明了所得估計能達到半參數有效下界。另外,我們考慮了擴展的單指標模型的變數選擇問題。我們提出了一種懲罰的估計方程方法,證明了所提出方法具有“Oracle”性質,並結合偽Fisher得分和MM算法提出了一種新的算法,用於解決懲罰估計方程的計算問題。總的來說,我們順利完成了本項目的既定目標,並在本項目的支持下共完成17篇論文。

相關詞條

熱門詞條

聯絡我們