高維數據的假設檢驗

《高維數據的假設檢驗》是依託北京大學,由王漢生擔任項目負責人的面上項目。

基本介紹

  • 中文名:高維數據的假設檢驗
  • 依託單位:北京大學
  • 項目負責人:王漢生
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

在實際研究工作中,人們碰到的高維數據越來越多,而相應的統計方法的發展相對滯後。在過去的5-10年裡,高維數據的變數選擇方法獲得了很大的發展,而在假設檢驗方面卻建樹甚微。這恰恰是最近一兩年剛剛興起的研究前沿。本課題將根據現有的研究以及文獻進展,在以下各個方面做重要且深入的貢獻:(1)考慮在因子結構下的超高維假設檢驗問題,而現有的結果都假設無因子結構;(2)考慮高維部分檢驗(Partial Test),而現有的結果都只考慮了全局檢驗(Global Test);(3)考慮高維數據挖掘方法的假設檢驗(例如:Na?ve Bayes),而現有的結果只考慮了經典的回歸或者多元模型;(4)考慮大規模網路數據(Network Data)的假設檢驗問題,而現有的結果都基於獨立同分布假設。本課題的成果將極大地豐富並發展現有的高維假設檢驗理論。

結題摘要

項目的背景:超高維數據分析是這些年統計研究的重點前沿,而同超高維數據相關的假設檢驗問題備受關注。過去這些年裡,眾多學者在超高維假設檢驗方面做出了卓有成效的貢獻。但是,這些研究幾乎都沒有考慮到超高維數據的因子結構特徵,也沒有考慮類似於複雜網路結構下的檢驗問題,對相關的數據挖掘算法缺乏深入研究。而本項目的目的就是希望盡最大努力填補這些重要的空白領域。 研究內容:根據申請書的研究計畫,研究內容主要集中(但是不局限於)這么幾個方面:(a)回歸分析框架下高維數據檢驗問題;(b)因子結構下的假設檢驗問題;(c)其他相關問題。 重要結果:本研究成果豐碩,前後共有22篇相關文章被國際知名學術期刊接收(或者已經發表)。其中最重要的結果集中在這么幾個方面。(a)在因子結構下,我們發現,大量被研究過的檢驗統計量,它們的極限分布不再正態。取而代之的是,平移而且加權後的卡方分布;(b)對於超高維回歸模型而言,檢驗單個回歸係數的顯著性是可行的。這裡的關鍵是要排除主要相關變數的干擾;(c)其他相關研究成果。 關鍵數據:本項目共完成論文22篇。負責人受邀在國內外學術報告做邀請報告23次(不含團隊其他成員)。 科學意義:豐富了超高維假設檢驗的理論框架。主要豐富了一下幾個方面的內容:(a)具有因子結構的超高維數據的假設檢驗問題;(b)超高維回歸模型中,對單個係數的檢驗;(c)其他相關研究問題。

相關詞條

熱門詞條

聯絡我們