《大規模個人基因組遺傳相似性評價與可視化方法研究》是依託哈爾濱工業大學,由雋立然擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:大規模個人基因組遺傳相似性評價與可視化方法研究
- 依託單位:哈爾濱工業大學
- 項目類別:青年科學基金項目
- 項目負責人:雋立然
項目摘要,結題摘要,
項目摘要
生命科學進入了大數據時代,個人基因組測序數據與變異數據已呈爆炸式增長。對大規模個人基因組的遺傳特徵進行比較、分析成為了生命科學和醫學研究中的基本需求。基於變異的遺傳相似性評價是大規模個人基因組之間比較、分析的基礎,可視化能夠顯著提升多個體基因組的比較和分析效率,是大數據時代基因組研究中不可或缺的方法與技術。本課題主要研究內容包括:1、研究基於變異的大規模個人基因組遺傳相似性評價模型與方法;2、研究多基因組遺傳相似性的特徵降維的有效模型與方法;3、開發大規模個人基因組遺傳相似性的可視化技術;4、對國際千人基因組計畫的2504個個體進行遺傳相似性分析與可視化的實證研究,驗證所提出的模型、方法和可視化技術。本課題將構建基於Jaccard距離和LDA模型的大規模個人基因組遺傳相似性評價方法;並基於此方法設計和開發多基因組可視化框架體系,為海量個人基因組遺傳數據提供新的研究模型、研究方法與研究工具。
結題摘要
本課題依據生物信息學的基本原理,結合生命科學與醫學研究中的現實需求,使用公開的國際千人基因組計畫第三階段的變異數據,研究了大規模個人基因組的遺傳相似性評價、多基因組遺傳相似關係可視化等問題。課題組設計了相關模型、框架和算法,並基於這些方法對國際千人基因組計畫第三階段2504個個體的遺傳相似性進行實證分析與可視化。經過3年的研究工作,本課題建立了基於Hamming距離的大規模個人基因組的局部相似性評價方法,建立了基於LDA模型的大規模個人基因組全局相似性評價方法。並利用國際千人基因組計畫數據對相關方法進行了可視化及驗證。本課題對相似性評價方法的模型參數與性能進行了詳細的探討,掌握了大規模個人基因組相似性評價過程中特徵選擇與參數選取的主要規律,充分解釋了建模結果與生物學問題之間的對應關係。達成了課題的研究目標。此外,在研究過程中,為了為比較不同方法之間的優劣,以及測試不同參數條件下方法的性能,課題組提出了Ranking score作為驗證基因組相似度計算方法有效性的評價標準。針對千人基因組數據樣本量有限的問題,課題組還開發了PGsim個人基因組模擬工具。本課題使用LDA模型表征基因組相似性,與傳統方法相比,LDA模型結果能夠更加準確地表征基因組相似性的生物學意義。作為無監督學習方法,LDA只需很少的先驗知識,相反,它可以從數據中挖掘知識,甚至可以糾正標註錯誤。模型建立後,還可以計算出新樣本的祖源信息、評估已知個體基因組與新個體基因組之間的相似性,並進行可視化。 “基因組相似性”描述了兩個個體的遺傳關係。這一概念的內涵隨研究背景而變化。例如,在研究遺傳疾病時,“基因組相似性”與人口研究中的含義不同。在本課題條件下,“基因組相似性”的概念是基於人群分層的,但LDA模型還可以套用於更廣闊的基因組研究領域,例如遺傳疾病研究。