人類基因組計畫的首要任務是對人類基因組進行全序列測定,整個基因組估計有30億個鹼基對,其中大約3%可以編碼蛋白質,其餘部分的生物學功能還不清楚。轉錄圖譜可以把基因組中能夠編碼蛋白質的部分集中起來,因此是一種重要的數據資源。
基本介紹
- 中文名:UniGene資料庫
- 首要任務:對人類基因組進行全序列測
- 類型:據資源
- 訪問:通過SRS系統
UniGene試圖通過電腦程式對GeneBank中的序列數據進行適當處理,剔除冗餘部分,將同一基因的序列,包括EST序列片段蒐集到一起,以便研究基因的轉錄圖譜。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因,HGI資料庫只包括人的基因。該資料庫的標題行(TITLE)給出基因的名稱和簡單說明,表達部位行(EXPRESS)指出該基因在什麼組織中表達以及在基因圖譜中的位置等。此外,列出該基因在核酸序列資料庫GenBank或EMBL和蛋白質序列資料庫SWISS-PROT中的編號的超文本連結。UniGene中部分條目包括已知基因序列,而有些條目則僅有新測得的EST序列片段。這就意味著,這些EST序列所對應的基因尚未搞清,可以用來發現新基因。在描繪基因圖譜及大規模基因表達分析等研究中,UniGene也可以幫助實驗設計者選擇試劑。總言之,UniGene參考了轉錄組、基因組的信息,通過多次循環聚類,整合儘可能多的數據,NCBI對UniGene按物種進行定期的更新,發布新的版本,另外也可以通過SRS系統訪問。