資料庫名稱。SwissProt資料庫中的所有序列條目都經過有經驗的分子生物學家和蛋白質化學家通過計算機工具,查閱有關文獻資料仔細核實的。SIB和 EBI共有70多人的研究隊伍,專門從事蛋白質序列數據的蒐集、整理、分析、注釋、發布,力圖提供高質量的蛋白質序列和注釋信息。
SwissProt資料庫的每個條目都有詳細的注釋,包括結構域、功能位點、跨膜區域、二硫鍵位置、翻譯後修飾、突變體等。該資料庫中還包括了與核酸序列資料庫EMBL/GenBank/DDBJ、蛋白質結構資料庫PDB以及Prosite、PRINTTS等十多個二次資料庫的交叉引用代碼。
基本信息,發展,
基本信息
SwissProt資料庫中的所有序列條目都經過有經驗的分子生物學家和蛋白質化學家通過計算機工具並查閱有關文獻資料仔細核實。SIB和 EBI共有70多人的研究隊伍,專門從事蛋白質序列數據的
蒐集、整理、分析、注釋、發布,力圖提供高質量的蛋白質序列和注釋信息。SwissProt資料庫的每個條目都有詳細的注釋,包括結構域、功能位點、跨膜區域、二硫鍵位置、翻譯後修飾、突變體等。該資料庫中還包括了與核酸序列資料庫EMBL/GenBank/DDBJ、蛋白質結構資料庫PDB以及Prosite、PRINTTS等十多個二次資料庫的交叉引用代碼。ExPAsy專門聘請了由200多位國際知名生物學家組成的網上專家評審團,並將SwissProt資料庫中的蛋白質分成200多個類別,每個類別由1位或2位評審專家負責,通過計算機網路進行審核。ExPASy網站上列出了這些評審專家的姓名、電子郵件地址和他們所負責評審蛋白質種類。用戶若對某個蛋白質條目有疑義,可以直接和相應的評審專家取得聯繫。SwissProt採用了和EMBL核算序列資料庫相同的格式和雙字母標識字。這種雙字母的標識字對於資料庫的管理維護比較方便,但用戶在使用時卻不很方便,特別對資料庫格式不很熟悉的用戶。ExPASy開發了面向生物學家的、基於瀏覽器的用戶界面,特別是用可視化方式表示胺基酸特徵表,使用戶對序列特性一目了然,如二硫鍵、跨膜螺旋、二級結構片段、活性位點等。
發展
截止1998年6月,SWISS-PROT資料庫包含約7萬條序列,這些序列涵蓋了5千多個不同種屬,其中大部分來自於幾種主要模式生物,如人、小鼠等。SWISS-PROT資料庫的結構與其它蛋白質序列資料庫不同。給出SWISS-PROT資料庫中一個序列條目的實例。圖中每一行由兩個字母起始,用來說明每一行所代表的信息。起其中第一行以ID開始,最後一行以雙斜槓//結束。ID行表示該序列的名稱是OPSD_SHEEP,共有348個胺基酸殘基。SWISS-PROT資料庫的ID包含一定信息,如本例中OPSD表示蛋白質名稱縮寫,而SHEEP表示該蛋白質分子來自於哪個物種,中間用下劃線分隔。即這一蛋白序列是來源於綿羊的視紫紅質(rhodopsin)。序列條目的標識符ID隨著版本的更新有可能改變,因此有必要採用能夠唯一識別該序列條目的其它標識符。SWISS-PROT採用AC(accession number)作為表示某個特定序列的代碼,具有唯一性和永久性。在文獻中引用某個序列時,應以AC為準,而不是以序列名稱或ID為準。本例中,代碼AC為P02700。採用AC代碼的另一個好處是便於計算機處理。如果在AC行出現了幾個代碼值,那么應以第一個為準,它表示該序列在當前版本中的代碼。下面的DT行提供了蛋白質序列提交到資料庫的時間,及最近一次修改的時間等信息。描述行(DE)可以有一行或幾行,提供了對該蛋白質的簡單說明。此例中,說明該蛋白質為視紫紅質。下面的幾行中提供了有關該蛋白質的基因名(GN)、物種來源(OS)和分類學位置(OC)等信息。接下來是與該蛋白質相關的基本注釋信息,包括文獻信息、與測序有關的信息、以及對該蛋白質序列分析得到的與結構或突變相關的信息等。這些注釋為用戶提供了非常有價值的信息。基本注釋信息後,是說明行(CC)。在CC行中按主題進行區分,其中,FUNCTION說明該蛋白質的功能,PTM說明翻譯後修飾,TISSUE SPECIFICITY說明組織專一性,SUBCELLULAR LOCATION說明亞細胞定位,SIMILARITY說明了與該蛋白質序列具有相似性或相關的某個蛋白質家族,等等。蛋白質序列具有與另一個蛋白質序列資料庫PIR的連結、與GPCR專門資料庫的連結,以及與蛋白質序列模體資料庫PROSITE的連結和與蛋白質結構域資料庫ProDom的連結。在DR行之後,是關鍵字行(KW)和特徵表行(FT)。特徵表包括對該序列特性的進一步注釋,包括跨膜螺旋等超二級結構單元、配體結合位點、翻譯後修飾位點等。特徵表的每一行有一個關鍵字(如TRANSMEM)、特徵序列的胺基酸殘基位置(如37-61),以及注釋信息的性質(如POTENTIAL)等。SWISS-PROT資料庫中的序列數據與蛋白質前體對應,如果想要獲得成熟蛋白質的序列,可以參考特徵表所提供的信息,即根據特徵表所提供的信號區(SIGNAL),轉運區(TRANSIT)或前肽(PROPEP)等信息來推斷成熟蛋白質或多肽序列。此外,CHAIN和PEPTIDE兩個關鍵字用來表示成熟蛋白質的位置。SWISS-PROT資料庫的格式便於通過計算機軟體進行查詢,即通過對每行起始的標識字建立索引檔案,即可方便地找到某一欄位。
現在已整合進UniProt資料庫中。