資料庫介紹,分類,建立基礎,
資料庫介紹
Uniprot參考資料庫,是全球蛋白資源資料庫UniProt的組成部分。
UniProt參考資料庫可以通過序列同一性對最相近的序列進行回並,加快搜尋速度。
UniRef對來自UniProtKB的各種數據包括各種剪接變異體進行了分類匯總,還從UniParc中選取了一些數據以求能完整的、沒有遺漏的收錄所有數據,同時也保證沒有冗餘數據,該資料庫的同一性(identity)分為三個級別:100%、90%和50%。
分類
UniRef里的數據是按照級別來分類的,在UniRef資料庫的每一個同一性級別中,每一條序列只會屬於其中的一個聚類,這條序列在其它的同一性級別中也只會有一條父集(parent cluster)序列和子集(child cluster)序列。UniRef100資料庫將相同的序列數據和亞片斷數據整合在一起,使用一個檢索進口進行檢索。
建立基礎
UniRef90資料庫建立在UniRef100資料庫的基礎之上,而UniRef50資料庫又是以UniRef90為基礎。UniRef100、UniRef90和UniRef50這三個資料庫的數據量分別減少10%、40%和70%。每一個聚類記錄都包含下列信息:數據來源、蛋白質名稱、分類學信息(但只會舉一個蛋白質為代表)、聚類下條目數等。UniRef100是目前最全面的非冗餘蛋白質序列資料庫。UniRef90和UniRef50數據量有所減少是為了能更快地進行序列相似性搜尋以減少結果的誤差。UniRef現在已廣泛用於自動基因組注釋、蛋白質家族分類、系統生物學、結構基因組學、系統發生分析、質譜分析等各個研究領域。UniRef中的聚類信息是會隨著UniProtKB的更新而同步更新的。