《含有相關或內生協變數的超高維模型的特徵篩選》是依託山東大學,由胡琴琴擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:含有相關或內生協變數的超高維模型的特徵篩選
- 項目類別:青年科學基金項目
- 項目負責人:胡琴琴
- 依託單位:山東大學
《含有相關或內生協變數的超高維模型的特徵篩選》是依託山東大學,由胡琴琴擔任項目負責人的青年科學基金項目。
《含有相關或內生協變數的超高維模型的特徵篩選》是依託山東大學,由胡琴琴擔任項目負責人的青年科學基金項目。中文摘要協變數弱相關和外生性通常是現有的特徵篩選和變數選擇方法的基本假設,而協變數相關和內生卻是大數據時代中(超)高...
《生存分析中變係數模型的超高維協變數的篩選研究》是依託武漢大學,由鄧世容擔任項目負責人的青年科學基金項目。項目摘要 超高維數據在科學技術發展的各個領域裡變得越來越重要。在許多生存數據的分析中,都涉及到超高維協變數,且某些重要的協變數對生存時間的效應可能會隨著其他暴露變數而變化。在眾多的協變數中,...
《高維協變數下部分線性風險回歸模型的變數選擇》是依託武漢大學,由陳玉蓉擔任項目負責人的青年科學基金項目。項目摘要 生存分析研究中,考察協變數對失效時間的各種效應是研究的熱點之一,其套用已滲透到各個領域。在現有生命科學研究中,經常會遇到生存數據是刪失的,同時協變數又為高維的,遠遠大於研究個體數量的情形。
本書是基於實驗中常見的一類數據——競爭風險數據,對其高維變數選擇問題進行研究。總共分為五章,其中第一章是理論基礎和方法的研究,主要闡述論文研究問題的背景,以及國內外研究方法。第二章是對超高維競爭風險模型的確定獨立篩選和條件確定獨立篩選方法的研究。第三章是針對協變數具有較強相關性的超高維競爭風險模型...
《刪失數據超高維共線性模型的變數選擇》是依託雲南大學,由唐年勝擔任負責人的國家自然科學基金資助專項基金項目。項目簡介 超高維數據的降維是當今統計學研究的前沿課題。本項目擬研究帶有刪失數據的超高維統計模型的變數選擇問題,尤其是超高維協變數之間具有高度相關關係(即共線性關係)的變數選擇問題。儘管對刪失數據的...
本課題主要研究超高維兩值數據的稀疏性,包含兩部分內容。第一部分,針對超高維兩值協變數(即特徵)的稀疏性展開研究。以超高維兩值數據的分類問題為背景,以樸素貝葉斯模型為基礎,通過提出特徵篩選、特徵加權等方法,對稀疏信息進行提取和壓縮,以提高分類的準確性和計算效率,並從理論上給出了特徵篩選方法的相合性...
本項目研究在機器學習的背景下,實現高維數據的特徵選擇。主要是針對四個方面的研究:量子進化算法的改進;基於量子進化算法的高維特徵選擇;基於模型組合的高維特徵選擇;基於特徵選擇方法可靠性的模型診斷。針對高維數據進行特徵選擇,有利於減少計算時間,實現數據的可視化,避免維度災難與過擬合。因此關於這些內容的研究...
非參數、半參數模型特徵篩選方法,並完善了理論框架;(h) 提出了線性模型下的超高維組篩選方法,並完善了理論框架;(i) 提出了部分線性單指標模型的半參數的檢驗方法,以及基於眾數回歸方法部分線性單指標模型、帶有隨機效應的部分非線性模型以及自適應組Lasso懲罰的貝葉斯複合分位數回歸這三個模型的估計方法,並完善...
《高維半參數模型假設檢驗問題的研究》是依託中央財經大學,由王思洋擔任項目負責人的青年科學基金項目。項目摘要 高維數據分析是當前研究的熱點,其研究成果集中在參數估計和變數選擇等方面,關於高維情形的假設檢驗結論相對較少。與線性模型相比,半參數模型具有更廣泛的適用性。基於以上兩點,本課題研究高維半參數模型中協...
《高維數據的圖模型學習與統計推斷》是依託中國人民大學,由尹建鑫擔任項目負責人的青年科學基金項目。項目摘要 研究在高維數據情形下,圖模型的結構學習及相關統計推斷問題。在高維情形下,當均值受到另一組高維協變數影響時,我們用似然函式加懲罰的方法來估計無向圖的結構。用懲罰似然方法研究array-型數據的無向圖...
與此同時,還研究了函式型變數的M估計以及變數選擇問題,對函式型數據和多元協變數混合的回歸模型進行理論探索;第四,對複雜類型數據的關聯分析、聚類分析以及模糊聚類的距離範式進行了研究,在高維度數據的餘弦相似度計算方面,提出了“條件反單調性”和“支持度遞增集合窮舉樹”等概念,給出了挖掘餘弦興趣模式的Cos...
研究目標是,在研究協變數調整模型推斷的基礎上,提出適應具有協變數污染調整模型的變數選擇方法;在合適條件下,研究估計量的漸近性質。以期對高維協變數污染複雜數據分析提供方法和理論上的支持。結題摘要 協變數調整模型是處理回響變數和預測變數存在乘積扭曲測量誤差的一類專有回歸模型,以高維數據,大數據為特徵的數據...
向前選擇法從模型中最顯著的預測開始,然後為每一步添加變數。向後剔除法與模型的所有預測同時開始,然後在每一步消除最小顯著性的變數。這種建模技術的目的是使用最少的預測變數數來最大化預測能力。這也是處理高維數據集的方法之一。5. Ridge Regression嶺回歸 嶺回歸分析是一種用於存在多重共線性(自變數高度相關...
本課題理論成果將為混合有文本信息的高維金融數據建模等複雜數據套用領域提供有效的解決工具。結題摘要 本課題通過對基於高維金融數據的貝葉斯柔性密度建模,對貝葉斯方法在高維柔性密度估計的模型假設、模型估計、模型驗證、模型預測等理論和計算進行研究。從二維離散和連續邊際的 Copula的柔性密度模型出發,研究高維 Copula ...
第11章線性模型及拓展的p-值300 11.1組織結構300 11.2樣本分割及高維變數選擇300 11.3多樣本分割和分族誤差控制303 11.3.1多p-值聚合304 11.3.2分族誤差控制305 11.4多樣本分割和錯誤發現率306 11.4.1錯誤發現率控制307 11.5數值結果308 11.5.1誤差率控制和仿真308 11.5.2計算生物學中的Motif回歸...
從理論上闡述模型的特性,用粗糙度懲罰方法構造出模型的目標函式並證明出密碼子不同位置上的鹼基組成及其相關性與基因表達水平間的回歸關係,提出用於基因表達調控分析的一些統計量。在模型中考慮協變數,控制非調節因素對模型核心參估計值的干擾,並建立高維非參數回歸模型。
(2)優缺點:可以直接分析各種類型的分類變數,對於名義變數,也不需要事先建立啞變數,可以直接分析變數的主效應和互動效應。對數線性模型不僅可以解決卡方分析中常遇到的高維列聯表的“壓縮”問題,又可以解決logistic回歸分析中多個自變數的互動效應問題。二維對數線性模型 公式 其中, 為總均值, 主效應A,主效應B...
此外,我們也研究協變數缺失時降維技術,在無須對傾向性得分函式作模型假設下發展降維技術。結題摘要 缺失數據普遍發生在一些實際問題的研究中。本項目研究數據缺失時高維數據分析的方法、理論與套用。研究了協變數缺失時非參數降維問題,發展了兩步方法,證明了降維方向估計有根號n相合性及維數估計的相合性,與已有工作...
對高維協變數Cox模型,構建了一種成組Bridge罰函子,以同時選出重要組別和重要協變數,並且估計相關的協變數係數。利用KTT等條件證明了相應估計的Oracle性質。對缺失數據,我們建立了一種廣泛的廣義線性混合模型,其中對隨機效應的分布不加限制,允許協變數缺失。通過發展成對似然估計方程得到參數的穩健估計,並證明了估計...
本項目對Cancer Cell Line Encyclopedia (CCLE)數據集分別建立了三種模型來預測癌症治療藥物敏感性。1.採用疊代SIS方法篩選重要的特徵來解釋藥物敏感性,經驗證該模型的預測精度比文獻中彈性網(elastic net)的預測精度高。2. 採用支持向量機(SVM)和遞歸特徵選擇方法進行建模,通過交叉核實法以及另一個獨立的數據集(...