基於多參考基因組的高通量測序片段映射方法研究

《基於多參考基因組的高通量測序片段映射方法研究》是依託哈爾濱工業大學,由劉博擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於多參考基因組的高通量測序片段映射方法研究
  • 依託單位:哈爾濱工業大學
  • 項目類別:青年科學基金項目
  • 項目負責人:劉博
項目摘要,結題摘要,

項目摘要

隨著新一代基因組測序技術的發展,測序成本逐漸降低,未來新生兒一出生即可接受測序服務,個人基因組數量將出現爆發性增長。這為生物信息學和算法科學提出了新的挑戰,即如何以多個個人基因組為參考進行read映射。傳統read映射方法解決此問題的空間和時間開銷較高。本研究將首先基於個人基因組之間的高度相似性,建立具有低空間複雜度的多參考基因組索引,降低read映射過程中的空間開銷。其次,本研究將提出面向多參考基因組索引的序列比對模型,有效解決read映射中出現的錯配、插入、刪除等各類情況。最後,本研究針對新一代測序數據的特點,對序列比對模型進行最佳化,提出具有較低時間複雜度的read映射方法。本研究將提升現有read映射方法的性能,並帶動生物信息學相關理論的發展。

結題摘要

隨著高通量基因組測序技術的快速發展和廣泛套用,已完成測序的基因組數量正在呈現爆發式增長。大量基因組科學前沿研究已經不滿足於將測序片段與單一參考基因組進行比對來進行重測序分析,而是渴望將測序片段與大量已知參考基因組進行比對,以獲得更加精細的基因組序列分析結果。同時,伴隨著基因組測序能力的快速增長,基因組測序片段的產生速度呈指數級提升,迫切需要高效的序列比對算法和系統實現更加快速基因組序列比對。這對生物信息學理論與技術的發展提出了重大挑戰。 本項目主要針對當前基因組科學的發展需求,進行面向多參考基因組的基因組測序片段快速比對算法研究。本項目主要在以下四個方面進行了研究工作:1、面向多參考基因組的序列比對理論與算法;2、面向海量基因組序列的序列自索引快速構建理論與算法;3、面向第三代測序片段的快速比對算法;4、面向基因組結構變異的基因組長測序片段比對算法。通過本項目研究,共產生了五項具有創新性的基因組索引與測序片段快速比對算法:1、基於圖結構索引的基因組序列比對算法deBGA;2、基於de Bruijn圖路徑分支編碼的基因組自索引快速構建算法deBWT;3、基於區域哈希表的第三代測序片段快速比對算法rHAT;4、基於長近似種子和稀疏動態規劃的超長測序片段比對算法LAMSA;5、面向結構變異的第三代測序片段快速過濾算法rMFilter。 這些算法構成了一個全新的面向多參考基因組進行基因測序片段比對的技術體系。這一技術體系完全支持當前主流測序平台,如Illumina HiSeq/MiSeq、PacBio SMRT、Oxford Nanopore等產生的第二、三代測序數據,並將當前主流基因組序列比對算法的速度提升了數倍至數十倍,有效解決了當前基因組分析中測序片段比對這一瓶頸問題。本項目的主要成果均在世界頂級生物信息學期刊《Bioinformatics》(SCI IF:5.766,中科院一區)發表(已發表四篇,一篇修改後錄用),並在同行評議過程中獲得國際同行的高度評價。

相關詞條

熱門詞條

聯絡我們