基於表型相似性的人類遺傳疾病基因預測方法研究

《基於表型相似性的人類遺傳疾病基因預測方法研究》是依託哈爾濱工業大學,由權光日擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於表型相似性的人類遺傳疾病基因預測方法研究
  • 依託單位:哈爾濱工業大學
  • 項目類別:面上項目
  • 項目負責人:權光日
項目摘要,結題摘要,

項目摘要

本申請依據遺傳疾病臨床描述與蛋白質相互作用網路的關聯關係,提出了一種新的人類遺傳疾病基因預測方法。具體地說,首先對人類遺傳疾病線上資料庫進行文本挖掘,通過基於語境框架的向量空間模型方法,計算遺傳疾病表型之間的重疊關係;其次,在傳統的二維關聯機率模型的基礎上,提出了基於多維隨機變數的兩種新的機率模型- - 中心機率模型和外形機率模型;在此基礎上,提出了基於多機率融合的致病基因預測數學模型,該模型通過綜合利用聯合機率、中心機率和外形機率,在多個層面上反映了表型相似性與蛋白質相互作用之間的關聯規律,與傳統的基於單一機率的模型相比,該數學模型更好地反映了生物系統的真實面貌,將具有更強的疾病基因預測能力。系統地調查蛋白質複合體與人類疾病之間關聯性是破譯人類疾病的遺傳基礎和分子基礎研究方面的主要任務之一。誘發疾病基因的識別研究,對基因組學和醫學具有重要的現實意義,是人類治癒遺傳疾病的關鍵問題。

結題摘要

系統地調查蛋白質複合體與人類疾病之間關聯性是破譯人類疾病的遺傳基礎和分子基礎研究方面的主要任務之一。誘發疾病基因的識別研究,對基因組學和醫學具有重要的現實意義,是人類治癒遺傳疾病的關鍵問題。本項目依據遺傳疾病臨床描述與蛋白質相互作用網路的關聯關係,提出了一種新的人類遺傳疾病基因預測方法。具體地說,首先對人類遺傳疾病線上資料庫OMIM進行文本挖掘,通過基於語境框架的向量空間模型方法,計算遺傳疾病表型之間的重疊關係;其次,我們使用GeneOntology層次框架的拓撲結構和蛋白質功能詞語的局部以及全局的語義影響,提出了一種新的蛋白質功能相似度以及蛋白質相似度計算方法。最後,在傳統的二維關聯機率模型的基礎上,提出了基於多維隨機變數的兩種新的機率模型--中心機率模型和外形機率模型;在此基礎上,提出了基於多機率融合的致病基因預測數學模型,該模型在多個層面上反映了表型相似性與蛋白質相互作用之間的關聯規律。通過多次不同規模的數據試驗結果的觀察,我們認為,表型相似性與蛋白質相互作用關係來預測大規模遺傳疾病與基因關係,有待於OMIM資料庫的進一步充實,以及蛋白質相互作用網路的細化,面向機體層面的蛋白質關聯關係資料庫的完善。此外,考慮到micro-RNA也是誘發疾病的主要因素之一。因此本項目在micro-RNA相關疾病預測分析領域進行了有針對性的擴展研究,通過整合了基因組數據,提出了一種基於加權網路的microRNA相關的疾病預測分析方法。算法在10倍交叉驗證下取得的ROC曲線面積達到了0.8884。最後,本項目組進行了面向大規模新一代DNA測序數據的SNP預測與檢驗算法研究,在基於BWT變換的參考基因組比對算法,尤其在模糊比對方面(即SNP位點的查找方面),進行了較深入的研究,取得了較好的效果。已完成的實驗結果表明,我們的方法的比對速度和精度比現有的算法都有顯著提高。

相關詞條

熱門詞條

聯絡我們