數據缺失時高維數據降維分析的方法、理論與套用

數據缺失時高維數據降維分析的方法、理論與套用

《數據缺失時高維數據降維分析的方法、理論與套用》是依託中國科學院數學與系統科學研究院,由王啟華擔任項目負責人的面上項目。

基本介紹

  • 中文名:數據缺失時高維數據降維分析的方法、理論與套用
  • 項目類別:面上項目
  • 項目負責人:王啟華
  • 依託單位:中國科學院數學與系統科學研究院
項目摘要,結題摘要,

項目摘要

高維數據分析是當前統計研究的熱點之一,特別是自從Li (1991,JASA)提出切片逆回歸技術以來,許多降維方法被提出. 然而這些方法主要針對數據完全觀察的情形。但實際中數據常常有缺失,而數據缺失時降維問題趨今研究較少,這方面值得特別的專門研究。本項目分別研究反映變數缺失或協變數缺失時降維方法與降維技術,在反映變數缺失時我們將首先發展融合-精練兩步方法找到中心降維子空間,發展機率質量函式加權imputation方法估計所獲得的中心降維子空間的基,並證明是根號n相合估計,將Zhu等(2009,Biometrika)中估計維數的方法推廣到缺失數據情形;我們還將發展反映變數缺失時切片逆回歸方法與極大化相關係數法;我們還通過求中心分位子空間獲得中心子空間;研究反映變數缺失時降維技術在變數選擇中的套用。此外,我們也研究協變數缺失時降維技術,在無須對傾向性得分函式作模型假設下發展降維技術。

結題摘要

缺失數據普遍發生在一些實際問題的研究中。本項目研究數據缺失時高維數據分析的方法、理論與套用。研究了協變數缺失時非參數降維問題,發展了兩步方法,證明了降維方向估計有根號n相合性及維數估計的相合性,與已有工作本質區別在於本項研究無需假設任何模型;研究了反映變數缺失時降維技術在變數選擇中的套用問題,基於SIR方法發展了不依賴模型假設的變數選擇方法; 研究了異方差部分線性單指標模型的變數選擇問題及估計的漸近有效性問題,我們發展了有效估計方程方法,該有效估計方程是使用部分線性單指標模型的有效得分函式並基於閾值估計方程得到的, 所定義的估計具有Oracle性質及漸近有效性;研究了部分線性乘積模型相對誤差估計方法,證明了所定義的估計是相合的和漸近正態的,並在相對誤差準則下研究了變數選擇問題,證明了所發展的變數選擇方法具有Oracle性質;基於復發事件數據發展了可加比率模型的變數選擇問題,根據回歸係數的估計定義了一個損失函式, 對該損失函式分別施加L_1及SCAD懲罰發展兩種變數選擇方法, 在適當條件下證明了兩種方法均具有Oracle性質;在回響變數缺失時,考慮了由一廣義估計方程所確定參數的估計問題,在傾向得分函式是參數模型假設下,我們使用加權廣義矩方法定義了兩種估計,其權是由經驗似然方法獲得,由於經驗似然使用降維約束條件,因而該避免了已有的GMM估計方法的維數禍根問題,從而也解決了計算上的困難;在刪失示性變數缺失時,研究了線性回歸分析,定義了回歸校準估計、插補估計、逆機率加權估計,證明了所定義的估計的漸近正態性;在回響變數缺失下研究了一擴展的單指標模型的估計問題,使用聯合估計方程發展一種三步估計方法估計單指標參數向量及非參數函式,建立了估計的漸近理論。

相關詞條

熱門詞條

聯絡我們