基於新一代測序數據的全基因組拼接組裝算法研究

《基於新一代測序數據的全基因組拼接組裝算法研究》是依託哈爾濱工業大學,由王亞東擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於新一代測序數據的全基因組拼接組裝算法研究
  • 依託單位:哈爾濱工業大學
  • 項目類別:面上項目
  • 項目負責人:王亞東
項目摘要,結題摘要,

項目摘要

近幾年,新一代測序技術對基因組科學的研究產生了深遠影響,尤其是基於新一代測序技術的基因組從頭測序已經成為研究熱點。一般而言,測序新物種產生2-20億條reads的海量短序列(相當於20-200 GB的數據量),對從頭測序的全基因組拼接組裝提出了嚴峻的挑戰。因此,發展短序列拼接組裝算法生成全基因組序列是從頭測序面臨的巨大挑戰!.本項目擬結合新一代測序數據的鹼基出錯特徵,最佳化配對數據,設計分批的數據處理策略,提出基於拼接信息累計與數據特徵相結合的評分方法,並進一步提出reads引導的短序列拼接的核心算法,最後採用GC含量校正拼接結果中重複段的拷貝數,從而發展快速、高精度的全基因組短序列拼接組裝算法,建立拼接組裝系統。本項目的完成將使我國在基因組從頭測序的理論與實踐方面上一新台階。

結題摘要

在本項目的資助下,項目負責人及團隊系統研究了基於高通量測序數據的基因組拼接方法,提出了基於支持向量機的分叉處理方法、基於向前查看策略的分叉處理方法,並在這兩種方法的基礎上,結合配對數據提出了基於多重啟發式的配對數據引導的拼接方法。並且,針對拼接結果中的拼接錯誤,提出了基於參考序列和配對數據的拼接錯誤識別方法。相應的論文分別發表在BMC Bioinformatics、PLoS ONE等期刊上。此外,我們還研究了與高通量測序數據相關的結構變異檢測方法、蛋白質多序列比對方法、基因組可視化、de novo突變檢測、以及高錯誤率測序片段比對算法,取得了較好的研究成果,相關論文發表在《Bioinformatics》、《Nucleic Acids Research》等期刊上。在本項目的支持下,課題組共發表已標註基金號的SCI論文19篇,開發了2套基因組拼接軟體,1套結構變異檢測軟體,1套蛋白質多序列比對軟體,1套個人基因組瀏覽器,1套高錯誤率測序片段比對工具。

相關詞條

熱門詞條

聯絡我們