含有相關或內生協變數的超高維模型的特徵篩選

《含有相關或內生協變數的超高維模型的特徵篩選》是依託山東大學,由胡琴琴擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:含有相關或內生協變數的超高維模型的特徵篩選
  • 項目類別:青年科學基金項目
  • 項目負責人:胡琴琴
  • 依託單位:山東大學
中文摘要,結題摘要,

中文摘要

協變數弱相關和外生性通常是現有的特徵篩選和變數選擇方法的基本假設,而協變數相關和內生卻是大數據時代中(超)高維數據重要且不可忽略的兩個特性。雖然特徵篩選已有較多研究成果和方法,但是含有強相關協變數或內生協變數的超高維模型的特徵篩選還很少有研究成果和方法。即便一些篩選方法的疊代版能在一定程度上減弱協變數相關性的影響,但也因疊代而導致計算冗餘和算法不夠穩定。在眾多套用領域,因維數高,所涉及的超高維數據均具有強相關性或內生性,忽視這些特性的特徵篩選方法必將導致錯誤的統計推斷。.本項目將研究含有相關或內生協變數的超高維模型的特徵篩選,主要內容有:1.研究協變數之間存在強相關性時,異(同)方差超高維參數和半參數回歸模型的特徵篩選方法及其相關統計性質;2.研究含有內生協變數的超高維參數回歸模型的特徵篩選方法。.本項目將進一步豐富和完善超高維模型的特徵篩選方法理論和套用,促進眾多領域中大數據分析的發展。

結題摘要

隨著科學技術的發展,我們進入了“大數據時代”。大數據給現代社會提供了新的機會,也給現代數據分析帶來了新的挑戰。協變數強相關和內生性是大數據時代中(超)高維數據中重要且不可忽略的兩個特性,但是現有的特徵篩選方法往往不考慮這兩個特性。在國家自然基金青年科學基金項目的資助下,完成了以下問題的研究。1. 異方差超高維數據具有多指標結構時在協變數強相關下的特徵篩選問題。根據事先獲得的一些回響變數的信息,例如確定一些與回響變數相關的活躍預測變數,結合經驗似然方法,我們提出條件特徵篩選方法,得到均值函式和方差函式的活躍預測變數集合的相合估計。值得注意的是,新提出的特徵篩選方法避免了均值函式和方差函式中未知的 link 函式的非參估計,而且,對於強相關的預測變數,我們的條件特徵篩選方法仍然表現出色。2.含有內生協變數的超高維線性回歸模型的特徵篩選問題。首先利用工具變數和原問題中的回響變數做回歸得到預測,通過排序協變數與上一步得到的預測的邊際相關性,篩選得到重要變數。提出的二步篩選方法不受工具變數個數的約束,且避免了內生變數對篩選的影響。3.多元回響變數超高維線性模型的特徵篩選問題。利用向量版經驗似然方法,綜合多維回響變數之間的關係提出MRELS和CMRELS篩選方法,提高篩選效率以及減弱協變數強相關性對隱藏型重要變數選入的影響。4.高維回歸模型的變數選擇。線性約束廣義Lasso擬合的幾何結構和自由度。在設計矩陣秩退化時,刻畫線性約束廣義Lasso(lcg-lasso)擬合的幾何結構並證明其唯一性;研究lcg-lasso的自由度,利用其自由度公式,套用信息準則,大大降低高維數據變數選擇時選擇調和參數的計算量。另外,還考慮協變數調整型高維線性回歸模型和空間半變化參數模型的變數選擇問題。到目前為止,項目組已發表SCI檢索期刊論文共4篇,還有多篇文章在投。

相關詞條

熱門詞條

聯絡我們