UniProt

UniProt 是 Universal Protein 的英文縮寫,是信息最豐富、資源最廣的蛋白質資料庫。它由整合Swiss-Prot、 TrEMBL 和 PIR-PSD 三大資料庫的數據而成。他的數據主要來自於基因組測序項目完成後,後續獲得的蛋白質序列。它包含了大量來自文獻的蛋白質的生物功能的信息。

基本介紹

  • 中文名:UniProt
  • 外文名:Universal Protein 
  • 組成‍:包含檢查過的包含未校驗的、
三大組成,主要特點,

三大組成

UniProtKB引  全稱 UniProt Knowledgebase(UniProt知識庫)它是經過專家校驗的數據集,主要由兩部分組成:UniProtKB/Swiss-Prot (包含檢查過的、手工注釋的條目) 和 UniProtKB/TrEMBL (包含未校驗的、自動注釋的條目),在 2010年8月是10日發布的版本中, UniProtKB/Swiss-Prot 包含 519,348 條注釋條目, UniProtKB/TrEMBL 包含11,636,205 條注釋條目。
UniProt LogUniProt Log

主要特點

UniProtKB/Swiss-Prot
高質量的、手工注釋的、非冗餘的數據集;主要來自文獻中的研究成果和E-value校驗過計算分析結果。有質量保證的數據才被加入該資料庫!
UniProtKB/TrEMBL
該數據集包含高質量的計算分析結果,一般都在自動注釋中富集,主要應對基因組項目獲得的大量數據流以人工校驗在時間上和人力上的不足。他能注釋所有可用的蛋白序列。在三大核酸資料庫(EMBL-Bank/GenBank/DDBJ)中注釋的編碼序列都被自動翻譯並加入該資料庫中。它也有來自PDB資料庫的序列,以及Ensembl、Refeq和CCDS基因預測的序列。
UniParc
UniParc全稱是UniProt Archive,他是一個綜合性的非冗餘資料庫,他包含了所有主要的、公開的資料庫的蛋白質序列。 由於蛋白質可能在不同的資料庫中存在,並且可能在同一個資料庫中有多個版本,為了去冗餘,UniaraParc對每條唯一的序列只存一次!無論是否為同一物種的序列,只要序列相同就被合併為一條,每條序列提供穩定的、唯一的編號UPI。該資料庫只含有蛋白質的序列信息,而沒有注釋數據。

相關詞條

熱門詞條

聯絡我們