人類基因組的重新注釋和人類轉錄組的擴充

人類基因組的重新注釋和人類轉錄組的擴充

《人類基因組的重新注釋和人類轉錄組的擴充》是依託華東師範大學,由石鐵流擔任項目負責人的專項基金項目。

基本介紹

  • 中文名:人類基因組的重新注釋和人類轉錄組的擴充
  • 項目類別:專項基金項目
  • 項目負責人:石鐵流
  • 依託單位:華東師範大學
項目摘要,結題摘要,

項目摘要

儘管人類基因組的測序草圖已完成了10多年,但研究表明我們對人類基因組的結構的認識還相當不完善,人類參考基因組中還缺失了很多編碼基因的片段,而且基因結構的注釋還非常不完整。新一代測序技術為我們更深入地認識人類基因組提供了全新的角度,使得我們能更全面的注釋人類基因組的精細結構,確立更完整的轉錄組。本項目計畫利用我們自有的幾十個人類不同組織的RNA-Seq數據和500個神經母細胞瘤病人的RNA-Seq數據,並結合公共資料庫中的人類RNA-Seq數據重構人類轉錄組,對人類基因組進行重新注釋,補充基因組中缺失的基因,確立新的基因結構。隨後,利用我們已有的大量人類蛋白質質譜數據對發現的新轉錄本進行鑑定。我們的研究對構建完整的人類基因組圖譜意義非常重大。也必將促進對人類基因組的深入認識和基因功能的研究。另外,對人類基因組的重新注釋及完善將有助於對其它真核生物基因組結構的研究。

結題摘要

人類參考基因組及其基因注釋是各種組學研究的基礎材料,它們的完整性對於研究的準確性至關重要。我們利用大批量的轉錄組測序數據探測和注釋了人類參考基因組缺失的基因,並且整合研究了多個不同資料庫的人類基因注釋。使用全基因組比較結合以基因組為參考的拼接策略,我們分別從Celera和HuRef基因組檢測到了3.78 Mb和2.37 Mb的轉錄區域在人類的參考基因組NCBI build 37.2上部分或全部缺失。我們進一步鑑定到了許多新的來自於從頭組裝的轉錄本contig不能夠匹配到NCBI build 37.2上,但能匹配到Celera、HuRef、黑猩猩、獼猴和小鼠的其中一個基因組上。我們的分析表明這些缺失基因可能是由於基因組的錯誤組裝、轉座、拷貝數變異、易位或其他的基因組結構變異造成的。而且,我們的結果暗示這些缺失的基因在人和其他哺乳動物間是保守的,可能具有重要的生物學功能。我們最終從這些缺失基因里共鑑定到了1233蛋白結構域。在另一個工作中,我們發現人類基因注釋在RefSeq、Ensembl和AceView中都不完善。雖然Ensembl和AceView比RefSeq注釋了更多的基因,但是有超過15800個Ensembl(或AceView)的基因位於AceView(或Ensembl)的基因間區或內含子區域內。RefSeq、Ensembl和AceView的人類基因注釋對短序列匹配、基因和轉錄本表達量計算、差異表達分析有不同的影響。而且,我們發現整合不同資料庫的基因能夠獲得一個更全的基因集,並能顯著改善相關轉錄組學的研究。我們還發現定位到Ensembl和AceView基因上的已知SNP都要比RefSeq多很多。特別地,我們發現在3041個疾病和症狀相關的RefSeq基因間區的SNP中有1033個能夠重新定位到Ensembl或AceView的基因上。總的來說,我們的工作不僅提供了鑑定基因組缺失基因的策略,還提出了造成基因缺失的原因,強調探測和注釋缺失基因的重要性。此外,通過整合不同資料庫的基因注釋獲得一個更完善的轉錄組能夠顯著改善相關轉錄組學和遺傳學方面的研究。

相關詞條

熱門詞條

聯絡我們