基於結構信息和多平台數據的機器學習方法研究

基於結構信息和多平台數據的機器學習方法研究

《基於結構信息和多平台數據的機器學習方法研究》是依託東北師範大學,由劉秉輝擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於結構信息和多平台數據的機器學習方法研究
  • 項目類別:面上項目
  • 項目負責人:劉秉輝
  • 依託單位:東北師範大學
項目摘要,結題摘要,

項目摘要

隨著基因晶片技術和新一代測序技術的高速發展,生物學家們獲得了越來越多不同平台的全基因組數據。大量研究發現這些全基因組變數與腫瘤的形成和治療有著複雜的關聯。因此利用整合分析來整合多平台的全基因組數據將更可能發現能夠反映治療差別(生存率和治癒率差別)的腫瘤子類。現存的方法已取得很大進展,然而問題依然存在,現存的許多最流行的整合分析方法都基於潛在變數模型,從而過度的依賴對潛在變數及觀測變數的機率分布假設,難以處理不同平台間比例失衡的情況,以及難以應付高維情況下極其繁重的計算任務;更重要的是,現存的方法只考慮到多平台數據之間的融合,卻沒能考慮到還需再融合各平台數據中觀測變數之間的結構信息。為了整合多平台的數據信息及結構信息,本項目旨在提出一種新的基於結構的整合分析框架,擬利用整合的低秩矩陣近似方法和結構正則化來構建。基於這個能整合更多信息的新框架,我們期待發現更有臨床價值的腫瘤子類。

結題摘要

隨著基因晶片技術和新一代測序技術的高速發展,生物學家們獲得了大量多平台的基因組數據。研究發現利用整合分析來融合多平台的全基因組數據將更可能發現能夠反映治療差別(生存率和治癒率差別)的腫瘤子類。項目開展之前的許多現存方法基於潛在變數模型,過度依賴對潛在變數及觀測變數的機率分布假設,難以處理不同平台間比例失衡的情況,以及難以應付高維情況下極其繁重的計算任務;更重要的是,這些方法只考慮到多平台數據之間的融合,卻沒能考慮到各平台數據中觀測變數之間的結構信息。為了整合多平台的數據信息及結構信息,本項目提出了一些新的整合分析框架,基於這些新框架,我們發現了一些更有臨床價值的腫瘤子類。具體內容如下。1. 我們提出了irGTM方法,該方法採用非線性聯合潛變數模型對多種類型的數據同時進行降維,且對每種數據類型分別進行特徵選擇。2. 提出了irPCA方法,該方法是一種基於綜合正則化主成分分析的無分布、計算效率高、抗不平衡尺度的方法。該方法對多種類型的數據同時進行降維,尋找數據的自適應稀疏性和尺度。除了對每一類數據進行特徵選擇外,還實現了整合聚類。3. 我們基於覆蓋和互斥的概念設計了新方法MCSS用來發現癌症中的突變驅動通路。該方法建立在非凸規劃和非凸正則化的基礎上,比現有的蒙特卡洛搜尋和其他已套用於癌症基因組阿特拉斯(TCGA)項目的算法更有效、更有效和更具可擴展性。此外,利用該方法,我們可以對突變數據和基因表達數據進行整合分析。 4.為了探索數據中潛藏的結構信息,我們還提出了一些高維數據檢驗方法和大規模網路的社區結構探測方法。這些研究結果加強了多源數據融合分析的多樣化、提高了多源數據融合分析的效率。

相關詞條

熱門詞條

聯絡我們