《下一代測序數據自適應錯誤修正技術的研究》是依託福建師範大學,由林劼擔任項目負責人的面上項目。
基本介紹
- 中文名:下一代測序數據自適應錯誤修正技術的研究
- 項目類別:面上項目
- 項目負責人:林劼
- 依託單位:福建師範大學
項目摘要,結題摘要,
項目摘要
在下一代測序技術中,錯誤修正模型是序列拼接的基礎,是正確有效測序的重要保證,也是近年生物信息學研究的熱點之一。本課題擬通過研究下一代測序數據特徵及其錯誤的分布特點,建立數據質量模型,為錯誤修正技術提供數據自適應模型。本課題計畫對測序數據進行高覆蓋細粒度分組聚合,將相似的測序數據聚合在同一組內,套用錯誤判別模型識別組內錯誤數據,並進行組內錯誤修正處理。為了有效利用有限的計算資源來處理海量數據,本課題將採用分散式計算框架,從而達到快速高效的錯誤修正目的,為測序技術的實際套用提供支持。本課題的研究成果可以結合目前高速發展的下一代測序技術套用在生物科學中的研究和臨床疾病的檢測,如個性化醫療等領域。
結題摘要
在下一代測序技術中,在進行短序列拼接之前需要進行測序數據的錯誤修正。本課題從數據特徵分析,錯誤判別模型,細粒度聚類,序列相似度算法以及錯誤修正模型等幾方面開展了研究。通過構建統計模型以及深度神經網路等方法,課題組建立了數據質量模型,用於擬合測序數據的錯誤率;構建了短序列錯誤判別模型,用於判別read出現錯誤的位置;通過提取序列特徵,計算序列相似度的手段構建高覆蓋細粒度聚類算法;開發錯誤修正模型,在聚集相似序列的基礎上進行read的錯誤修正;研究分散式計算架構,將以上成果在分散式計算架構進行改造,以適應海量測序數據。在整合以上幾方面的研究成果的基礎上,構建了一個以Hadoop為分散式計算架構的分散式生物測序錯誤修正系統。本課題的研究成果可以結合目前高速發展的下一代測序技術套用在生物科學中的研究和臨床疾病的檢測,如個性化醫療等領域。本課題的研究成果還可以套用在第三代生物測序技術上。