《基於宏基因組測序的病毒株序列重建與識別方法》是依託廈門大學,由曾豐擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於宏基因組測序的病毒株序列重建與識別方法
- 項目類別:青年科學基金項目
- 項目負責人:曾豐
- 依託單位:廈門大學
項目摘要,結題摘要,
項目摘要
使用宏基因組測序技術,大規模測序人體與環境中的病毒,解析群體中病毒株的基因組序列以及群落結構,對於病毒進化動力學研究、病原體檢測、複雜疾病病理研究、以及環境生態研究等具有重要的意義和套用價值。病毒宏基因組測序數據混合了不同的病毒株基因組序列。這些序列相似程度高,經過超聲技術被震斷成序列片段,並且受到測序錯誤的污染,所以在病毒宏基因組數據中重建病毒株的基因組序列是一項極具挑戰的計算任務。因此,在這項研究中,我們將致力於研究使用級聯拼接與譜聚類等技術從低信噪比、碎片化、混合度高的數據中重建病毒株序列以及群落結構。在此基礎上,我們將進一步研究基於病毒株序列的遺傳變異檢測方法,使用錯誤模型和序列重比對等技術,降低測序錯誤和比對錯誤對於病毒基因組遺傳變異檢測的影響。本項目的預期研究成果將轉化為套用軟體,套用在深海宏基因組與海洋變化的關聯研究中,並將為菌株水平的宏基因組研究提供有益的借鑑和技術支持。
結題摘要
宏基因組被稱為人體的“第二基因組”,不但與糖尿病、結腸癌等疾病具有密不可分的聯繫,也會影響放療和免疫治療對癌症的治療效果。因此,研究宏基因組分析的有效方法有助於理解宏基因組的群落結構的變化規律,使宏基因組可以在精準醫學中發揮重要的作用。 宏基因組測序是研究宏基因組的群落結構的一種高通量技術。通常,宏基因組測序數據中包含了成百上千種微生物和病毒的DNA序列。數據分析的困難主要有三點,首先是異質性程度高,數據中混合的微生物和病毒的數目事先未知,其次是近源物種的DNA序列具有很高的相似度,第三是測序錯誤率的影響。因此,一般的聚類方法很難能夠準確地估計出群落中微生物和病毒的準確數目以及組成比例。 項目組對基於宏基因組測序數據的群落結構的重建方法展開了研究,取得了一定成果。首先,課題提出了一種重建宏基因組的群落結構的計算方法,通過組裝全長的16S rRNA序列對物種進行鑑別和豐度估計,方法的準確性和特異性均領先於國際同行的相關工作。該方法在算法設計和數據結構方法均有創新。第一,提出了一種基於系統發生樹的數據粗聚類的技術。利用系統發生樹,將進化關係較近的數據聚合在一起,將進化關係較遠的數據分開,大大降低了數據的異質性。第二,提出了序列比對圖的數據結構,用於表示具有高相似度的生物序列。序列比對圖的骨幹表示一致性序列,而圖上的分支表示SNP和InDel。序列比對圖有效的表示了宏基因組數據。第三,方法提出了一種面向序列比對圖的非參數貝葉斯分析方法,準確估計混合模型的組成成分的數目和比重。其次,課題針對16S擴增子測序數據提出了一種新的OTU估計方法,利用測序錯誤模型提高OTU估計的準確性,並且提高了結果的可重複性。第三,課題使用上述方法分析了土壤微生物中的“暗物質”,以及腸道微生物和2型糖尿病的相關性。 課題提出的計算方法和數據結構將有助於複雜異質性數據的分析,同時課題開發的相關計算工具有助於研究宏基因組的群落結構和環境、疾病等的關聯作用。