基本介紹
- 中文名:布魯克海文蛋白質資料庫
- 外文名:The BrookHaven Protein Data Bank
- 縮寫:PDB
- 服務於:全球科研、教育工作者和學生
PDB概述,檔案結構,PDB套用,
PDB概述
----PDB由美聯邦政府代理基金會與用戶提供的經費聯合資助,由美國國家科學基金、美國公眾健康服務部、國家健康協會、國家研究資源中心、國家綜合醫學院、國家醫學圖書館以及美國能源部在DE-AC02-76CH00016契約之下與用戶提供的費用共同支持。
檔案結構
----在蛋白質晶體結構資料庫PDB中,各大分子結構是以分立的檔案形式記錄的,這些檔案被稱作PDB的入口檔案(entry)。一個檔案只反映某一個大分子結構的信息。每個大分子結構通過唯一的ID碼(四位代碼)來識別。早期入口檔案的檔案名稱後綴為".pdb",一種大分子對應一個檔案。如阿比西尼亞捲心菜(CrambeAbyssinia)種子蛋白的ID碼是1CRN,其入口檔案名稱為1crn.pdb。1997年以後,每一種生物大分子有一組(3個)相關檔案與之對應,它們是全文檔案、書目檔案和圖形檔案。例如,抗菌素MinorCoatProtein的ID碼是1g3p,它的3個相關檔案分別為1g3p.full(全文檔案)、1g3p.biblio(書目檔案)和1g3p.gif(圖形檔案);免疫球蛋白(Immunoglobulin)的ID碼為1ap2,它的3個相關檔案分別為1ap2.full、1ap2.biblio和1ap2.gif。在這三個檔案中,.full檔案相當於原來的.pdb檔案。
----每一個PDB入口檔案包含有標題部分、注釋部分、一級結構、異質、二級結構、連通性注釋、各種特性、結晶學、坐標變換、原子坐標、化學連線和簿記等12個部分。檔案中每一行被稱作一條記錄,也被稱作入口(entry),可理解為記錄入口。每行包括80列,每個記錄入口的最後一個字元是一個end-of-line(行結束符)。
----PDB檔案也可以被看作記錄類型(recordtype)的集合,它和一般的關係資料庫概念不同。在關係資料庫的庫檔案中,每條記錄由不同數據類型和數據格式的若干欄位組成,所有記錄的欄位結構都是相同的。而在PDB檔案中,包含眾多的記錄類型,每類記錄都有不同的格式。
----基於記錄類型在一個PDB入口檔案中出現的次數可將一組記錄劃分成以下六類:
Single(單次記錄型):如HEADER、END和CRYST1,在一個檔案中僅出現一次,沒有接續部分;
SingleContinued(單次接續型):如AUTHOR、CAVEAT和COMPND,在一個檔案中概念性地存在一次。其內容如果超過一行,可表示在後續行中,這些後續行包括一個接續指示欄位;
Multiple(多次記錄型):在一個檔案中出現多次,如ATOM、CONECT和HELIX.在這類記錄類型中信息以列表的形式出現;
MultipleContinued(多次接續型):如FORMUL、HETATM和HETNAM,在一個入口檔案中概念性地存在多次,每條記錄內容超過一行的部分可表示在後續行中,這些後續行包括一個接續指示欄位;
Grouping:用來作為其他記錄類別的分組標誌記錄型,如ENDMDL、MODEL和TER;
Other:其他記錄類型,如JRNL(定義坐標系列的文獻引用)和REMARK(一般注釋)。
----每個記錄類型以固定的列數分割成若干欄位,欄位應包含數據類型、欄位名和欄位定義。
PDB套用
----生物大分子的三維結構是了解生物分子功能的前提。對於分子生物學家、細胞生物學家和生物化學家而言,建立生物過程的分子機制越來越重要。由於X射線衍射技術的發展,特別是近年來NMR技術的發展,生物大分子的三維結構信息增長極快,布魯克海文蛋白質資料庫的建立極大地方便了生物化學家和分子生物學家的研究工作,為醫學領域中的科研和教學提供了大分子的寶貴資料,具有重要的套用價值。尤其是近年來隨著Internet信息開發和套用,人們可以進行資源共享,還可以通過三維圖像顯示軟體,如RASMOL、VRML顯示蛋白質的結構圖像,這些都為PDB資源的利用提供了廣闊的天地。