高通量測序的可計算建模與套用基礎算法

高通量測序的可計算建模與套用基礎算法

《高通量測序的可計算建模與套用基礎算法》是依託中國科學院數學與系統科學研究院,由李雷擔任項目負責人的重大研究計畫。

基本介紹

  • 中文名:高通量測序的可計算建模與套用基礎算法
  • 項目類別:重大研究計畫
  • 項目負責人:李雷
  • 依託單位:中國科學院數學與系統科學研究院
項目摘要,結題摘要,

項目摘要

高通量DNA測序是開展現代分子生物學研究和實現個體化醫療的核心技術。在“高性能科學計算的基礎算法與可計算建模”重大研究計畫資助的培育項目的前期研究基礎上,我們計畫針對高通量測序技術中三個基礎計算問題:鹼基辨識、序列映射、和基因組拼接,建立原創的可計算模型和相應的套用基礎算法。第一,繼續發展基於Illumina技術的鹼基辨識系統,方法採用盲反問題原則和分解複雜問題以實現並行運算,一方面減少錯誤,一方面提高速度。第二,基於我們原創的SEME算法,根據生物問題對映射速度、靈敏度、特異度的需求,通過機率計算設計相應的序列映射方案。第三,基因組拼接是計算生物學中的數學反問題,挑戰主要來源於基因組中廣泛存在的重複序列以及測序過程中各種誤差造成的不確定性。我們的重點是研發互補於目前主流的單純基於De Bruijn圖的基因組拼接方案。我們的研究將會促進DNA測序為中國的健康、醫學、農業等事業服務。

結題摘要

本課題在“高性能科學計算的基礎算法與可計算建模”重大研究計畫資助的培育項目“高通量測序技術的可計算建模與鹼基辨識的算法與評估”的前期探索研究基礎上,針對高通量測序技術中三個基礎計算問題:鹼基辨識、序列映射、和基因組拼接,建立了原創的可計算模型和相應的套用基礎算法。最近完成了中國第一個申請了智慧財產權的基於Illumina技術的鹼基辨識系統3DEC,它在C++平台和matlab平台各有一個並行運算的版本。比起目前商用的pipeline,它可以將測序錯誤減少60%以上。而且,通過實現並行運算,計算時間已經接近商業軟體,可以在實際中套用。 我們的SEME序列映射方法已經比流行的BOWTIE2快了一個量級,這可以節省大量的電力資源。這個映射方法是我們其它工作如基因組拼接的基礎,這一年針對下游的套用,我們改進並維護了SEME軟體。本課題基於新一代測序數據,研發了互補於目前主流的單純基於De Bruijn圖和Eulerian路徑方法的基因組拼接方案BAUM,這個方案綜合利用了序列映射、De Brujin圖、和統計分析。用我們開發的方法BAUM拼接了野生水稻Rufipogon,長雄野生水稻(Oryza longistaminata ), 高原鼢鼠的基因組。contig的N50長度是衡量所拼接出的基因組的連續性的一個重要指標,BAUM目前的N50結果好於常用方法3-6倍。此外,課題還開展了與高通量測序相關的生物系統理論和醫學組學數據分析研究。包括生物系統的數學可計算建模的理論工作,以及基於高通量組學數據研究二型糖尿病機制的工作。本課題的研究成果申請了多項中國和國際專利,其中兩項獲得授權。

相關詞條

熱門詞條

聯絡我們