高通量RNA-Seq測序數據的基因表達水平建模研究

高通量RNA-Seq測序數據的基因表達水平建模研究

《高通量RNA-Seq測序數據的基因表達水平建模研究》是依託南京航空航天大學,由劉學軍擔任項目負責人的面上項目。

基本介紹

  • 中文名:高通量RNA-Seq測序數據的基因表達水平建模研究
  • 項目類別:面上項目
  • 項目負責人:劉學軍
  • 依託單位:南京航空航天大學
項目摘要,結題摘要,

項目摘要

高通量RNA-Seq測序技術近年來大量套用於基因表達水平(GEL)的測量,GEL計算的準確性對後續分析正確得出生物學結論具有至關重要的作用,但該技術中各種系統噪聲的存在為GEL的計算帶來了挑戰。現有方法均採用了離散型機率模型,儘管該類模型能夠模擬數據的離散特性,但對系統噪聲建模能力相對較弱,難以較好地同時解決RNA-Seq數據中讀段非均勻分布和多源映射,以及雙末端測序技術下的計算等問題。本項目擬設計連續型機率模型進行RNA-Seq數據GEL的計算,以克服現有方法的不足。重點研究:(1)讀段計數向模擬信號的轉換方式,為連續型機率模型提供數據準備;(2)讀段模擬化信號的機率建模方法,以消除讀段非均勻分布的影響;(3)讀段多源映射的機率建模,以準確模擬不同異構體的表達水平;(4)GEL的機率分布表示,以有效整合不同異構體表達水平。本項目預期能進一步提高GEL計算的準確性,為後續分析打下良好的基礎。

結題摘要

轉錄組研究近年來成為生物醫學領域較為重要的研究方向,RNA-Seq技術和基因晶片是目前轉錄組研究中的重要工具。實驗產生了海量數據,從這些數據中獲得準確的基因以及異構體表達水平面具有很大挑戰。RNA-Seq數據臨讀段多源映射和讀段在參考序列上分布偏差的影響,基因晶片數據存在非特異性探針信號的影響。本項目主要圍繞RNA-Seq和基因晶片數據,設計一系列機率模型排除噪聲干擾,進行基因及異構體表達水平的計算。具體完成的研究內容有:(1)針對RNA-Seq數據讀段分布偏差進行建模研究,根據不同的偏差假設設計了一系列模型進行偏差校正。首先根據鹼基水平採用馬爾科夫模型獲得了位置偏差和序列偏差因子,對讀段分布進行偏差矯正。其次考慮了基因和異構體之間對應關係的稀疏性設計了基於結構稀疏回歸方法的異構體表達值計算方法。再次採用伽瑪模型模擬讀段分布偏差,得到了較為準確的基因和異構體表達水平計算方法。最後設計了一系列基於LDA模型的表達水平計算方法,獲得了異構體比例的機率分布。(2)基於所設計的基於鹼基偏差校正的表達水平計算模型,提出了考慮不確定度的差異基因及異構體檢測;基於LDA系列模型的表達水平計算方法,提出了差異異構體比例檢測方法。(3)針對Affymetrix傳統3’晶片提出了僅採用PM探針數據的更為穩定的伽瑪模型處理方法,用來計算基因表達水平;針對外顯子晶片以及HTA2.0晶片原始數據,採用已知的基因和異構體的對應關係,提出了基於伽瑪模型的基因以及異構體表達水平計算方法,並對算法進行了並行化改造以提高處理大數據的能力。本項目以此為基礎還擴展研究了:(1)將高斯過程回歸模型套用於航空領域翼型最佳化設計,該方法考慮了翼型設計中多個氣動性能之間的相關性,採用多輸出高斯過程回歸模型建立多回響代理模型,獲得較好設計效果。(2)將貝葉斯網路套用於作戰重心評估,定量地評估各個關節對於證據的重要性,合理地確定作戰重心。本項目實現開源軟體包5個,供生物醫學領域研究者免費下載使用,以促進相關領域的研究。

相關詞條

熱門詞條

聯絡我們