基於集成異構網路的表型-基因關聯挖掘研究

中文摘要

表型-基因關聯預測和分析在疾病治療、食物增產等方面具有重大意義,是生物信息學中的核心問題,在全基因組網路上採用類似於PageRank的隨機遊走方法逐漸成為主流.但傳統方法只能在單個基因網路上進行挖掘,在對表型網路數據、患者數據的利用中丟失很多結構信息.本課題將表型、基因和表型-基因關聯三個網路集成為一個異構網路,以充分保留各網路中的結構信息,並在此基礎上開展關聯預測、聚類分析和同源模組挖掘工作:(1)將表型-基因關聯預測建模為最佳化問題,通過損失函式設計來利用已知關聯和網路結構,改進最佳化方法以適應表型-基因關聯稀少等問題;(2)通過最大化表型聚類和基因聚類的一致性來實現對表型和基因的協同聚類,為複雜疾病提供表型簇-基因簇級別的聚類分析工具;(3)提出跨物種表型-基因同源模組挖掘,將研究相對充分的家鼠上的成果引入到人類的表型-基因關聯挖掘中.對於集成異構網路的研究也會推動大數據下的異構數據挖掘的發展

結題摘要

本項目研究生物表型-基因關聯關係的預測問題，表型-基因關聯預測及分析對了解疾病的分子發病機制、疾病治療、藥物研發等具有重要意義，已經成為生物信息學的熱門研究領域。傳統的連線分析方法定位出的染色體基因在通常cM級別，包含成百上千個可能的關聯基因，進一步篩選研究需要生物研究人員進一步通過實驗完成，耗時耗力。而隨著高通量測序技術的發展，多種生物網路數據得到豐富和完善，基於機器學習、數據挖掘的方法越來越多地被套用到這一問題的研究中。為了充分利用已有的表型-基因關聯信息以及表型網路和基因互動網路信息，本項目將表型、基因、表型-基因關聯三個網路集成為一個異構網路，提出循環二部圖的概念，並基於此設計了雙向隨機遊走算法來充分挖掘可能的表型-基因關聯關係，同時，為了解決人類表型-基因關聯數據稀缺的問題，課題組將老鼠的表型基因信息遷移至人類網路中，提出了跨物種的雙向隨機遊走算法。此外，為了更好地研究基因模組，針對表型的層次關係設計了基於層次結構信息的一致性多非負矩陣分解模型。最後，為了更好地計算和分析表型-基因關聯關係，方便研究人員使用，設計了PheGenEx和BioData Miner的表型-基因關聯關係可視化查詢平台。本項目系統研究了表型-基因關聯關係的預測問題、聚類分析問題，推動了該類問題的前進，同時推進了異構網路數據挖掘問題的進一步發展。

基於集成異構網路的表型-基因關聯挖掘研究

基本介紹

中文摘要

結題摘要

相關詞條

熱門詞條