《基於啟發式信息的腫瘤基因表達譜降維與分析方法研究》是依託湖南大學,由王樹林擔任項目負責人的面上項目。
基本介紹
- 中文名:基於啟發式信息的腫瘤基因表達譜降維與分析方法研究
- 項目類別:面上項目
- 項目負責人:王樹林
- 依託單位:湖南大學
中文摘要,結題摘要,
中文摘要
腫瘤是一種目前還不完全明白其發病機理的嚴重危害人類生命健康的分子疾病,而基因晶片與RNA-Seq技術的出現為從分子水平上研究其發病機理與臨床診斷提供了強有力的手段。本課題研究了基於啟發式信息的信息基因選擇與特徵抽取方法,設計了基於網路分量分析的調控網路構建方法。通過利用腫瘤類別信息來發現具有最高分類性能的最小基因子集並以基因在子集中的出現頻數來度量基因與腫瘤的密切程度,從而能夠發現重要的腫瘤相關基因;而通過基因表達譜的矩陣分解所獲得的因子矩陣的統計信息來實現信息基因的選擇能夠滿足聚類分析的要求。採用諸如因子分析與流形學習的特徵抽取方法來實現基因表達譜的降維能夠實現樣本的可視化表示。通過對腫瘤基因表達譜結構特點的探索,能夠發現腫瘤相關基因之間的調控關係與功能模組,為腫瘤分類模型構建、樣本聚類分析與調控通路分析奠定基礎,為最終設計腫瘤的臨床診斷軟體、腫瘤藥物的研製以及腫瘤的個性化治療提供依據。
結題摘要
基因晶片技術的出現為從分子水平上研究腫瘤致病機理提供了強有力的手段。我們的主要目標就是在目前公開發布的腫瘤基因表達譜數據集上開展基於啟發式信息的數據降維與分析研究,發現那些腫瘤相關的致癌與抑癌基因及其相互關係,設計能夠套用於腫瘤臨床診斷的預測模型,以通過腫瘤相關基因調控網路的構建洞察腫瘤致病機理的本質特點。本課題組嚴格遵照項目計畫書中所設計的各階段計畫要求進行。總體上說,我們完成了項目計畫書中多數預期研究的內容和主要研究目標。首先,我們採用因子分析方法從基因表達譜中抽取潛在因子,並用抽取的因子構建預測模型,實驗發現只需要很少的因子數量就能夠獲得足夠好的分類預測性能。如果我們把這些因子解釋成表達譜中一類基因的代表,由此推測可能需要很少的基因就能獲得很好的預測模型。緊接著,我們根據這一推斷設計了能夠儘可能多地發現最佳的最小基因子集的基於啟發式信息的寬度優先搜尋方法的基因選擇方法,這種方法採用基因在選出的基因子集中的出現頻數來度量基因的重要性,進而通過這種基因重要性排序方法來發現重要的腫瘤致病基因與抑制基因。我們進一步發現選出的基因的出現頻數關於基因的數量符合冪率分布,這充分表明排在前面的少數基因有可能成為腫瘤診斷的標誌,通過分析選出的基因的功能、生物通路以及蛋白質相互作用網路,進一步證明我們的方法在發現重要腫瘤相關基因方面的優越性。我們還提出一種基於模板的相關濾波器方法來識別蘊含在差異表達基因中的腫瘤亞型全局模式,提出一種基於鄰域粗糙集基因約簡算法的集成分類器構建方法,等等,這些方法的實驗結果很好。然而我們也發現採用基於水平集分割模型的腫瘤樣本自動聚類方法的效果不是很好以及利用當前公開發布的腫瘤數據集構建實際的調控網路還存在一定困難。但是我們相信隨著國際腫瘤基因組計畫的順利實施,更多精確的數位化腫瘤基因表達數據集的發布,對腫瘤致病機理的探索研究將會建立在新一代腫瘤基因組測序和數位化腫瘤基因表達數據的基礎之上。總之,我們不僅注重嘗試設計具有一定生物醫學含義的數據挖掘新方法,而且注重對實驗結果的生物醫學分析。特別是,我們實際發表的SCI和EI檢索論文數量比預期數量要多很多,而且發表的論文質量也符合項目計畫書中對論文質量的要求。同時我們還申請了國家專利《一種基於啟發式寬度優先搜尋腫瘤相關基因的方法》一項,成功申報湖南省自然科學二等獎一項。