《果蠅非編碼基因組(ncRNA)研究》是依託清華大學,由魯志擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:果蠅非編碼基因組(ncRNA)研究
- 依託單位:清華大學
- 項目負責人:魯志
- 項目類別:青年科學基金項目
項目摘要,結題摘要,
項目摘要
現階段編碼蛋白的基因已經在各個基因組中有了深入的研究和較好的注釋,但是非編碼基因的全面注釋還是一個空白。很多實驗證據表明非編碼基因具有重大的生物功能。 基於我在模式生物和人類基因組方面的經驗, 我們將利用最新一代的大規模測序數據和RNA結構預測算法,開發專門套用於果蠅基因組的非編碼基因預測算法。這一算法是一種機基於果蠅全基因組規模上的機器學習模型,用於預測和發現全基因組水平上的非編碼RNA,ncRNA。通過在果蠅基因組裡最佳化該數學模型,我們期望準確的將已知的非編碼基因和已知的蛋白質編碼基因區別開來。並進一步在基因間的未知區域預測大量新基因。根據在人類和線沖基因組中的結果,這一方法的準確度將高於90%。我們將進一步的利用TF和POLII的節後位點,在不同組織中的差異表達群,對這些新基因進行分類。最終,我們將對預測出的基因做生化上的實驗驗證,為進一步的生物功能驗證提供好的靶點。
結題摘要
現階段編碼蛋白的基因已經在各個基因組中有了深入的研究和較好的注釋,但是非編碼基因的全面注釋以及相關的生物信息學鑑定方法還亟待完善。使用高通量轉錄組數據可以拼接出很多新的非編碼RNA轉錄本,其中長度大於200nt的長鏈非編碼RNA由於其新穎性以及多種多樣的重要生物學功能而備受矚目。然而,在數以萬計的長鏈非編碼RNA中,只有很少數(100-200)得到了確切的實驗驗證和功能解釋。為了能夠更全面準確地發現鑑定新型非編碼RNA,並對其進行具體的加工和功能特性預測,我們收集、測序和分析了大量的高通量數據,發展了一系列基於機器學習和結構預測的生物信息學方法,系統而有效地在人類、小鼠、果蠅、線蟲和擬南芥等多物種上對新型非編碼RNA進行了鑑別、注釋和功能探究。具體進展如下: 首先我們發展了一種跨物種特徵選擇的方法,發現了不同種類非編碼RNA共有的典型特徵(NAR, 2014)。我們在多個物種中整合了超過600套的高通量數據以及多種進化和生物物理的相關特徵值。最終我們篩選出10個序列、結構、表達和表觀修飾的特徵。我們使用這10個特徵可以高度準確的在四個物種內(準確度 0.92~0.96)、四個物種間(準確度 0.71~0.89)預測非編碼RNA,不僅可以靈敏地找到新型的非編碼RNA(平均跨種類預測靈敏度0.89)。同時還可以找到在長非編碼RNA中可能的功能結構域,從而可以為後續的實驗驗證提供更多的依據。其次,我們針對植物發展了一套鑑定長鏈非編碼RNA的生物信息學方法,找出了植物逆境生長相關的非編碼RNA,並對這些非編碼RNA進行了功能驗證和特性分析(The Plant Journal, 2014)。我們發現,沒有polyA尾巴的非編碼RNA有更短的長度和更低的表達量,而且在乾旱條件下顯著富集,在高溫條件下顯著缺失。此外,在不同逆境條件下的非編碼RNA有著不同的序列和結構。最後,我們參與國際ENCODE項目,完善了我們之前開發的非編碼RNA的生物信息學鑑定方法,並成功套用到了人類、線蟲和果蠅三個基因組上(Nature, 2014)。該方法整合了GC含量、DNA保守性、RNA結構穩定性和保守性、表達值、表觀遺傳學修飾信號值等特徵,對全基因組每50nt都進行了非編碼可能性的預測。RT-PCR的驗證也表明預測結果的可信性, 即12個非編碼RNA中的10個能夠檢測到清晰的目的片段。