更高效的PacBio長read糾錯算法的研究

更高效的PacBio長read糾錯算法的研究

《更高效的PacBio長read糾錯算法的研究》是依託北京交通大學,由包爾固德擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:更高效的PacBio長read糾錯算法的研究
  • 項目類別:青年科學基金項目
  • 項目負責人:包爾固德
  • 依託單位:北京交通大學
項目摘要,結題摘要,

項目摘要

第三代PacBio測序技術的長read已越來越廣泛的套用於各類測序項目中,而降低其約15%的錯誤率是必要的計算步驟。當前各類糾錯算法可把長read的錯誤率降至1%,但也存在著一些問題。(1)針對各類算法鹼基保留率較低的問題,我們提出研究基於短read contig的高鹼基保留率算法,擬通過構建加權有向圖和定義解決組合最佳化問題,來精確找到contig到長read的正確比對結果。(2)針對基於短read拼接的算法缺少chimeric錯誤糾錯功能的問題,我們提出研究基於短read contig的chimeric錯誤糾錯算法,擬通過比較長短read對長read和contig的支持度,來區分兩者的chimeric錯誤。(3)針對自糾錯算法對長read覆蓋度要求太高的問題,我們提出研究覆蓋度要求適中的長read自糾錯算法,擬通過索引和比對長read的k-mer,來保證大量重複區域比對的運行時間。

結題摘要

PacBio公司的第三代單分子實時測序技術已經被越來越廣泛的套用於各類基因組測序項目之中,但是這一技術生成的長讀長有15%左右的錯誤率,且包含導致錯誤拼接的嵌合錯誤。我們主要研究PacBio長讀長的糾錯算法,取得了以下三方面的研究成果。(1)長讀長的高通量糾錯算法HALC:該算法藉助於與長讀長來自同一物種的短讀長和其拼接所得的重疊群對長讀長糾錯,取得了比其它糾錯算法高6.7-41.1%的通量。(2)基於參考基因組和長短讀長的重疊群錯誤拼接檢測算法ReMILO:該算法綜合使用來自相似物種的參考基因組和長讀長來檢測和糾正重疊群的錯誤拼接,以及長讀長的嵌合錯誤,可以比其它算法多檢測出11.6-98.5%的錯誤拼接。(3)長讀長的快速、高通量自糾錯算法HALS:該算法對當前最快速的長讀長自糾錯算法MECAT進行改進,取得了比MECAT高28.1-230.2%的通量。我們共發表3篇高水平論文,包括以項目負責人為第一作者和通訊作者的1區SCI期刊論文一篇和2區SCI期刊論文一篇,以及以項目負責人為第一作者的頂級會議子會論文一篇。

相關詞條

熱門詞條

聯絡我們