下一代測序數據中的多重檢驗問題研究

中文摘要

基因突變分析是揭示複雜疾病與基因變異之間關係的重要途徑。下一代測序技術的出現為全基因組範圍內的基因突變掃描提供了技術支持，但這一技術在提高速度、降低成本的同時也帶來了海量數據分析的問題，如何準確、高效地解讀海量數據所承載的生物學信息是後基因時代所面臨的重要問題。現階段，運用下一代測序數據進行的突變分析基本採用貝葉斯模型的方法，其結果通常存在假陽性個數過多的問題。在微陣列數據下，掃描突變探針的問題可以在多重假設檢驗下進行，微陣列數據分析的研究進展促進了多重假設檢驗方法的蓬勃發展，但這些算法不能被直接套用於下一代測序數據分析中。本項目將以發展針對下一代測序數據的多重檢驗FWER/FDR控制方法為目的，開發針對下一代測序數據的突變分析算法和軟體，在保持檢測效率的同時從基因組水平上控制假陽性的發生，提高突變分析的準確度。此外，本項目還將開發並行運算算法，對電腦程式進行加速，增加基礎研究的實用性。

結題摘要

以下一代測序技術為代表的高通量測序方法的出現，革命性地改變了基因組研究的藍圖，從一次幾條跳躍到一次可以完成對幾十萬甚至幾百萬條DNA序列測定，這種高速度生產在短時期內即產生了海量數據，同時也包含了不可忽略的測序錯誤，對傳統的突變分析算法提出挑戰。把在每個位點上關於是否發生突變的推斷視為一個假設檢驗，突變分析的實質是一個多重假設檢驗問題，即在控制假陽性的情況下儘可能提高突變檢測的效率，或在保持檢測效率的同時控制假陽性發生的個數。本項目以解決突變分析的位點檢測為目標，開發對其適用的假陽性控制方法。突變和測序錯誤兩個因素在觀測數據中具有相同的表現，即改變被測序樣本的鹼基讀，使其不同於參考鏈，因此突變分析假陽性控制的關鍵在於對數據中測序錯誤率大小的估計，據此判定某個位點是否出現突變。通過文獻回顧和前期工作發現，僅以測序平台輸出的鹼基得分和比對得分難以準確地刻畫測序錯誤率的大小。本項目分別針對單樣本和多樣本的下一代測序數據，開發了三個新的突變分析算法，把測序錯誤率定義為未知參數，建立統計學模型，利用真實數據對其估計。其一，擴展前期工作的單樣本分析工具GeMS至多樣本模型MultiGeMS；其二，我們把測序錯誤效應分解為樣本效應和位點效應，編寫了EM算法完成數值估計；其三，我們從全基因組整體刻畫單樣本數據在全部位點上的測序錯誤率，合併全基因組數據對其估計。在以上三項工作中，我們均引入隱變數描述未知的基因型，計算其後驗機率用於基因型估計和FDR控制下的突變位點的判定。大量的隨機模擬和實際數據分析表明，我們所提出的方法在控制假陽性和檢測效率方法均優於文獻方法。本項目所產出三項成果均實現為方便實用的R程式包，並在國際SCI期刊公開發表，豐富了突變分析的統計分析工具，為解決這類生物信息學問題提供了更多選擇。

下一代測序數據中的多重檢驗問題研究

基本介紹

中文摘要

結題摘要

相關詞條

熱門詞條