《基於集成學習的高維癌症基因微陣列數據分析方法研究》是依託廈門大學,由劉昆宏擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於集成學習的高維癌症基因微陣列數據分析方法研究
- 項目類別:青年科學基金項目
- 項目負責人:劉昆宏
- 依託單位:廈門大學
項目摘要,結題摘要,
項目摘要
腫瘤是一種目前還未明確發病機理的嚴重危害人類生命健康的分子疾病,而基因微陣列技術為從分子水平上研究其發病機理與臨床診斷方法提供了強有力的手段。本課題重點研究基於腫瘤基因表達譜的數據分析方法,針對基因數據高維小樣本的特點,設計基於多重編碼進化計算的多分類器集成學習系統,分析完備基因數據集,挖掘具有最高分類性能的最小基因子集,並判定癌症類型,為腫瘤分類模型構建、致癌基因分析與調控通路分析提供基礎。擬構造基於特徵的差異度測度,結合與分類器無關的特徵選擇算法理論,並針對樣本數不均衡問題設計運算元,從而搜尋與分類界面無關的可靠基因表達模式組合,進而深入探討致癌基因的相互調控作用。並將結合流形學習等非線性降維方法,實現數據的可視化分析,以此為基礎設計系統仿真診斷軟體,從而為促進腫瘤基因組學和藥物基因組學的進一步研究打下基礎。
結題摘要
本項目主要圍繞針對癌症基因微陣列數據的高維小樣本特點,結合進化算法,設計並實現了多個集成學習算法框架,實現有效的數據分析;此外還對相關醫學領域進行了跨學科領域的探討,主要的成果為:1、基於最高得分基因對(Top Score Pairwise)方法,設計了基於遺傳算法的支持向量機集成選擇算法(GA-ESP)系統框架,可以有效對基因數據進行關鍵基因篩選與類別判定,具有良好的推廣能力。2、基於廈門市中山醫院的癌症病例樣本進行組織晶片數據分析,使用不同特徵選擇方法,針對不同癌症患者樣本的腫瘤瘤內與瘤旁基因表達差異進行挖掘,總結出TP53基因在不同癌症中的調控作用。3、設計了一種局部線性表示Fisher的流形學習方法(LLRFC),分別從不同類癌症基因數據抽取k近鄰數據構建類間圖、同類基因抽取k近鄰數據構建類內圖,之後用局部最小線性重構方法最佳化兩個圖的權重,並用Fisher判決條件搜尋一個低維子空間,同時最小化類內圖與類外圖的重構錯誤率,從而獲得較理想的降維效果。4、設計了基於遺傳規劃的集成學習系統構造方法,並以此為基礎對決策樹進行了集成,形成GPES集成學習系統。在基於兩類與多類基因微陣列數據分析的實驗中發現該算法與一些經典的集成學習算法相比,如隨機森林、旋轉森林等,具有更好的推廣能力和穩健性。5、設計了兩種算法對傳統ECOC編碼方法進行多級集成,構建了E-ECOC集成學習系統,用以癌症基因微陣列數據進行了分類判別,分析基因在多種癌症之間的差異進行分析。設計了基於輸出糾錯編碼差異度分析的測度,用於指導生成具有高差異度的集成學習系統。經過改進的ECOC編碼套用與基因數據分析上能取得較好的識別率。此外,在其餘領域取得的成果包括:1、基於隨機森林設計了一種混合集成學習模型,對白血病研究的相關論文文獻情況進行分析,構造了具有克服不均衡樣本問題,對文獻的分類獲得了理想效果。2、基於模糊聚類算法進行了改進,設計了一種基於模糊空間聚類的算法,對實際的石油地震數據與人工空間數據進行聚類,與傳統計算方法相比降低了算法複雜度,同時有效提升了聚類效果。3、提出了一種基於局部混合層集方法構建3D血管模型,結合了局部區域信息與邊界信息,用於血管邊緣分割,從而實現微細血管結構的精確抽取。4、引入局部適應二進制能量方程實現混合層集合算法框架,有效實現局部信息的抽取,更好的實現了不均衡分布的血管圖像分割。