《高通量RNA-Seq數據的偏差建模和差異表達基因識別》是依託廈門大學,由王穎擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:高通量RNA-Seq數據的偏差建模和差異表達基因識別
- 項目類別:青年科學基金項目
- 項目負責人:王穎
- 依託單位:廈門大學
項目摘要,結題摘要,
項目摘要
本項目對高通量RNA-Seq數據的偏差建模和差異表達基因識別展開研究。本項目將鹼基視為信息處理的基本單位,而外顯子、基因等都可視為鹼基單元的某種積分。分析偏差時,將可能的偏差因素作為解釋變數,觀測到的鹼基短序列匹配數作為回響變數,通過採樣獲取各因素對短序列分布的影響趨勢,從而獲取正確的模型結構,構建針對不同測序協定、平台適用的模型結構;提出兩步驟最佳化方法,採用權係數與最小二乘的混合估計法、EM算法,對建立的線性或非線性模型尋優偏差權重,修正鹼基位上的短序列匹配數。基於修正結果,提出基於鹼基單元的差異表達基因識別方法。通過利用鹼基的位置對應信息和短序列匹配數信息,結合線性擬合、樣條回歸、L2誤差範數等技術識別不同條件下鹼基序列上的匹配數差異的顯著性,進而識別出差異表達基因。以上思路在統計方法中引入系統辨識的思想,以鹼基為單位,充分利用RNA-Seq數據帶來的高解析度信息進行後續的數據分析。
結題摘要
新一代高通量測序受到極大關注。利用宏基因組和宏轉錄組高通量測序數據比較微生物群落間的差異成為重要的科學問題。該差異不僅涉及物種的豐度差異,也涉及物種的組成差異。本項目基於高通量測序數據對不同樣本,特別是微生物群落之間差異的分析方法進行研究和探索,建立以下模型和平台,並運用到不同類型的高通量測序數據中: ①基於k-tuple頻度的序列顯著性統計模型及平台,基於定階次馬爾科夫模型的頻度轉移機率估計方法,無需配準,不需要種群的生物種類和基因組序列參考信息,僅僅基於數據本身分析不同樣本和種群間的差異。該模型套用於99個海洋水域的微生物群落宏轉錄組數據以及16個宏基因組數據,利用該模型研究分析不同種群間的差異度,環境梯度的影響。 ②基於RNA-Seq的基因組註解資料庫評估模型:基於RNA-Seq至註解參考序列的配準信息提出在基因、轉錄物、外顯子、剪下位點和鹼基層面的特異性和敏感性度量指標, 進而評估基因組註解資料庫的完整性和精確性。對5 個代表性的人類基因組註解資料庫評估, 並構建人體綜合準確註解資料庫; 此外, 通過對現有恆河猴基因組註解資料庫的評估 發現該資料庫的完整性的欠缺, 及其註解精確性與人類資料庫的註解水平的差距。該評估體系可對各物種的基因組註解信息進行全面、快速和高效的評估及驗證,為差異表達基因選擇合理的註解資料庫提供了很好的參考依據。 ③基於數據配準的全基因組註解動態規劃模型:基於物種的相似性,利用已註解物種的基因組註解信息對未註解物種的基因組進行註解。通過序列比對,建立基於配準性能、配準位置關係、順序和距離關係的動態規劃模型,無需收集參考資料庫和生物實驗,快速建立具有足夠精確度和完整性的物種註解信息,提供重要的參考信息。 ④基於長k-tuple的信息顯著性能初步分析:前期研究都集中在2-10bp的tuple中,主要關注tuple分布的總體統計特性。利用長k-tuple(k≥30),基於文本挖掘的信息聚類進行初步探索,發現長k-tuple獨有的優勢。 研究得到以下結論: ①基於2-10bp的tuple統計模型能較好地度量不同樣本間的差異程度。對微生物群落能反映外部環境對群落的影響梯度。 ②基於RNA-Seq高通量測序數據有效快速地驗證全基因組的註解信息,為註解信息的評估和完善提供參考信息。 ③當k-tuple變長,信息量變大,是很好的探索