高通量測序技術的可計算建模與鹼基辨識的算法和評估

項目摘要

新一代測序技術具有高通量、高解析度、低成本等優點，它為有效地檢測低頻遺傳變異與低豐表達信息提供了嶄新的契機。如何區分測序錯誤和真正的低頻遺傳變異和低豐表達信息是新一代測序技術急需解決的關鍵問題。測序系統首先探測並且記錄生物序列的光/電信號，鹼基辨識是指從光/電信號通過計算還原相應的生物序列並加以評估的過程，它是測序技術的基石。本項目計畫在我們原有工作基礎上，為新一代測序的主流技術平台建立機理與數據互補的計算模型，開發與國產試劑相匹配的鹼基辨識方法，發展比較測序原始光/電信號的統計模型和基於似然函式的檢測變異的新算法以及相應的統計評估，發展跨測序平台的比較測序原始光/電信號的統計模型和檢測變異的新算法及統計評估，對第三代測序技術的鹼基辨識做前瞻性的研究。我們希望這個項目的研究通過高性能計算幫助中國的測序產業不僅做到規模最大，而且質量最好，從而為中國的健康、醫學、農業事業奠定一個堅實基礎。

結題摘要

新一代測序技術具有高通量、低成本等優點，它使得大規模獲取個人全基因組數據成為可能，進而為惡性腫瘤、糖尿病等重大疾病的診斷和個體化治療提供更系統的科學依據和嶄新的希望。本培育項目研究了高通量測序技術中幾個核心的可計算建模問題和基礎算法。首先對Illumina測序儀的測序原始數據做了系統性的可計算建模。模型的核心是三個混雜運算元，並基於李雷原創的盲反問題原則提出了自適應解和算法。從概念上看，首先指出了文獻中一類從未提到的由分子簇空間混雜引起的鹼基辨識錯誤，並將它們基本消除。通過對幾個典型的數據評測，我們的方法目前可以將現有測序儀自帶的鹼基辨識的錯誤減少達到約40%。本項目研究了新一代測序技術中最基礎的序列映射算法。近年來Illumina技術不斷改進，讀長超過150個鹼基而且錯誤基本上是替換錯誤。根據這些特點，我們設計了一種原創的高速序列映射方法SEME，它由“單種子搜尋”和“延拓”兩步組成。經過機率計算發現，通過合適地選取種子長度，在基因組中能夠無錯誤地搜尋到種子的機率可以達到足夠大，同時控制假陽性機率。在延拓步驟，提出了自匹配函式的概念，並在此基礎上設計了線性複雜性的算法。通過在一些數據集上測試，SEME的映射速度已達到目前最流行的BOWTIE2的15倍。而且SEME具有以下獨特的特點：測序數據質量越高，映射速度越快。我們評估了算法的靈敏性和特異性，這在文獻中還是首次。本項目提出綜合利用序列映射、De Brujin圖、和統計分析的基因組拼接方法，這個方法目前在拼裝高雜合度的野生水稻Rubipogon基因組項目中已得到比較理想的結果。本項目創新性地建立了RNA降解的數學模型，進而準確的校正了由RNA降解引起的測序序列非均勻分布帶來的系統偏差。同時，為了克服RNA-Seq重複樣本少、參數多對挑選樣本間差異表達基因造成的假陽性高的影響，巧妙地基於現有統計方法以及信息融合技術，提出了基於整合外顯子顯著性的差異表達基因檢測方法。本項目的研究初步系統地揭示了納米粒子[Gd@C82(OH)22]n抗癌的分子機制。我們利用本研究組原創的高通量基因表達數據的可計算模型，分析了一個對照實驗的基因表達晶片數據，發現 [Gd@C82(OH)22]n通過細胞內質網壓力和TP53相關的調控網路誘導了癌症細胞MCF-7的細胞凋亡。[Gd@C82(OH)22]n有望成為中國原創的抗癌藥物。

高通量測序技術的可計算建模與鹼基辨識的算法和評估

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條