《大數據下充分性降維技術的若干拓展研究》是依託上海交通大學,由王濤擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:大數據下充分性降維技術的若干拓展研究
- 項目類別:青年科學基金項目
- 項目負責人:王濤
- 依託單位:上海交通大學
項目摘要,結題摘要,
項目摘要
隨著現代科學技術的不斷發展,大數據的收集在各行各業已經變得相當普遍。大數據通常維數高、具有多樣(源)性以及數據結構複雜。另一方面,在回歸分析中,充分性降維可以在既不損失回歸信息、又不假定回歸形式的條件下對預測變數進行降維。本項目擬研究大數據下充分性降維技術的若干推廣。首先,研究“小樣本,大維數”下的充分性降維,提出能夠同時進行降維和變數選擇的中心降維子空間估計,獲得所提估計在“小樣本,大維數”下的統計理論性質,以及提出相合的選擇結構維數的策略。其次,研究多群體充分性降維,建立多群體聯合充分性降維框架,在此框架下,推廣在單個群體下發展的充分性降維方法和理論,以及利用模擬數據系統地比較多個群體降維方法與單個群體降維方法的表現。最後,研究刪失數據下的充分性降維,構造刪失數據下充分性降維的半參數估計方程,獲得所提估計的相合性和漸近正態性,以及將新方法套用到癌症基因組圖譜數據進行實證分析。
結題摘要
充分性降維旨在既不損失回歸信息又不假定回歸形式的條件下對預測變數進行降維。該領域在過去的30年裡得到了長足的發展和廣泛的套用。但是,現有的方法仍有很大的局限性。本課題著重研究了複雜數據背景下的充分性降維問題,以及降維技術在生物醫學研究的套用。把刪失數據下的充分性降維問題看成一個半參數回歸問題,將不同的降維方法統一到一個框架下進行討論;通過構造估計方程,提出了若干不同形式的估計量;結合鞅理論和半參數理論,研究了這些方法的理論性質;開發了R軟體包orthoDr。建立了切片逆回歸和降秩多元線性回歸之間的內在聯繫,提出了同時進行降維和變數選擇的懲罰方法,並設計了高效的數值計算算法;證明了該方法能夠處理變數維數隨樣本容量呈多項式甚至指數增長的高維數據;提出了選擇結構維數和懲罰參數的策略。根據微生物組學研究的目的和數據特點,研究了高維成分數據降維和特徵選擇方法;基於線性模型,提出了變數融合概念,並提出整合進化樹信息的多尺度降維方法;利用線性對數對比模型,提出了子成分選擇概念,並提出整合進化樹信息的多尺度特徵消除方法。此外,課題負責人與合作者從數據可視化角度研究了充分性降維;提出的方法可以繞過降維子空間直接估計觀測數據的投影;該方法將主成分分析與主坐標分析的對偶關係從無監督學習推廣到帶監督學習。在微生物組數據分析方面,建立了總體相對豐度關於宿主表型的逆回歸模型和給定總體相對豐度下測序數據的多項分布;構造了基於微生物組測序數據的表型預測函式,以及設計了有效的蒙特卡洛算法。課題組已將所提方法套用於人體微生物組學研究、癌症病人和癌細胞系多組學數據、全基因組關聯研究、大腦皮層基因表達時空數據、節律基因縱向表達數據等,取得了較好的效果。在項目資助下,本課題在統計學國際知名雜誌Journal of the American Statistical Association、Biometrika、Biometrics、Statistica Sinica、Journal of Computational and Graphical Statistics、The Annals of Applied Statistics、Statistics and Computing等,以及生物信息學國際知名雜誌Bioinformatics等發表了數篇高質量學術論文,並多次參與國內外相關學術會議匯報項目研究成果。