PDB檔案本質是一種ASCII碼檔案,可以用普通的文本編輯器編輯,也可以用專業軟體編輯。不過要展示該檔案所表示的蛋白質三維空間結構則需要藉助相關軟體,如winCoot、Moe等。
PDB(Protein Data Bank)是一種標準檔案格式, 其中包含原子的坐標等信息, 提交給 Protein Data Bank at the Research Collaboratory for Structural Bioinformatics (RCSB) 的結構都使用這種標準格式. 這裡整理網上已有的一些資料, 對PDB格式做個簡短介紹. 對大多數用戶而言, 了解這些內容就夠了, 但對那些需要創建PDB檔案的用戶, 請參考PDB格式官方文檔.
完整的PDB檔案提供了非常多的信息, 包括作者, 參考文獻以及結構說明, 如二硫鍵, 螺旋, 片層, 活性位點. 在使用PDB檔案時請記住, 一些建模軟體可能不支持那些錯誤的輸入格式.
PDB格式以文本格式給出信息, 每一行信息稱為一個 記錄(record) . 一個PDB檔案通常包括很多不同類型的記錄, 它們以特定的順序排列, 用以描述結構.
PDB檔案中的記錄類型
一. 標題部分
HEADER: 分子類, 公布日期, ID號
OBSLTE: 註明此ID號已廢棄, 改用新ID號
TITLE: 說明實驗方法類型
CAVEAT: 可能的錯誤警告
COMPND: 化合物分子組成
SOURCE: 化合物來源
KEYWDS: 關鍵字
EXPDTA: 測定結構所用的實驗方法
AUTHOR: 結構測定者
REVDAT: 修訂日期及相關內容
SPRSDE: 已撤銷或更改的相關記錄
JRNL: 發表坐標的期刊
REMARK REMARK 1: 有關文獻 REMARK 2: 最大解析度 REMARK 3: 用到的程式和統計方法. 記述結構最佳化的方法和相關統計數據. REMARK 4-999: 其他信息
二. 一級結構
DBREF: 其他序列庫的有關記錄
SEQADV: PDB與其他記錄的出入
SEQRES: 殘基序列
MODRES: 對標準殘基的修飾
三. 雜因子
HET: 非標準殘基
HETNAM: 非標準殘基的名稱
HETSNY: 非標準殘基的同義字
FORMOL: 非標準殘基的化學式
四. 二級結構
HELIX: 螺旋. 標識螺旋的位置和類型(右手α螺旋等), 每個螺旋一條記錄.
SHEET: 片層. 標識每個片層的位置, 類型(sense, 如反平行等), 相對於模型中每個束的片層(如果存在的話)中前一束的說明, 每個片層一條記錄.
TURN: 轉角
五. 連線注釋
SSBOND: 二硫鍵. 定義半胱氨酸CYS殘基之間的二硫鍵
LINK: 殘基間化學鍵
HYDBND: 氫鍵
SLTBRG: 鹽橋
CISPEP: 順式殘基
六. 晶胞特徵及坐標變換
CRYST1: 晶胞參數(NMR除外). 記述晶胞結構參數(a, b, c, α, β, γ, 空間群)以及Z值(單位結構中的聚合鏈數).
ORIGXn: 直角-PDB坐標
SCALEn: 直角-晶體分數坐標(n=1, 2, 3, NMR除外). 說明數據中直角坐標向晶體分數坐標的變換因子.
MTRIXn: 非晶相對稱
TVECT: 平移矢量
七. 坐標部分
MODEL: 多亞基時顯示亞基號 當一個PDB檔案中包含多個結構時(例: NMR結構解析), 該記錄出現在各個模型的第一行. MODEL記錄行的第11-14列上記入模型序號. 序號從1開始順序記入, 在11-14列中從右起寫. 比如說有30個模型, 則第1至9號模型, 該行的7-13列空白, 在14列上記入1-9的數字; 第10-30號模型, 該行的7-12列空白, 13-14列上記入10-30的數字.
ATOM: 標準殘基的原子. 記述標準殘基(胺基酸以及核酸)中各原子的原子名稱, 殘基名稱, 直角坐標(單位埃), 占有率, 溫度因子等信息.
SIGATM: 標準差
ANISOU: 各向異性
SIGUIJ: 各種溫度因素導致的標準差
TER: 殘基鏈的末端. 表示殘基鏈的結束. 在每個聚合鏈的末端都必須有TER記錄, 但因序列無序造成的鏈中斷處不需要該記錄. 例如, 一個血紅蛋白分子包含四個亞鏈. 彼此之間並不相連. TER標識了每條鏈的結束, 以防顯示時這條鏈與下一條相連.
HETATM: 非標準殘基的原子. 記述非標準殘基(標準胺基酸以及核酸以外的化合物, 包括抑制劑, 輔因子, 離子, 溶劑)中各原子的原子名稱, 殘基名稱, 直角坐標(單位埃), 占有率, 溫度因子等信息. 與ATOM記錄的唯一區別在於HETATM殘基默認情況下不會與其他殘基相連. 注意, 水分子也應放在此記錄中.
ENDMDL: 亞基結束. 與MODEL記錄成對出現, 記述在各模型的鏈末端的TER記錄之後.
八. 連線信息部分
CONECT: 原子間的連線信息
九. 簿記
MASTER: 著作權擁有者
END: 檔案結束. 標誌PDB檔案的結束, 必需記錄.
一些記錄類型的說明
PDB檔案裡面的每個記錄都有著嚴格的格式. 每個記錄中的欄位, 如標識, 原子名稱, 原子序號, 殘基名稱, 殘基序號等, 不僅要按照嚴格的順序書寫, 而且每個欄位所占的字元串長度, 及其所處的位置都是嚴格規定好的. 這些記錄中, 通常最關心的是原子記錄, 其詳細說明可參考PDB原子記錄官方文檔.
一些老的PDB檔案可能不完全遵循新格式. 對大多數用戶而言, 最值得注意的區別在於ATOM和HETATM記錄中的溫度因子欄位. 下文的例子中沒有使用這些欄位. 此外, 有些欄位常常留空, 例如, 如當原子沒有可替換位置時, 可替位置標識符就會留空.
ATOM記錄
PDB檔案 ATOM 記錄 列 數據 格式, 對齊 說明 1-4
ATOM
字元, 左
Record Type 記錄類型
7-11
serial
整數, 右
Atom serial number 原子序號. PDB檔案對分子結構處理為 segment, chain, residue, atom四個層次(一般並不用到chain), 因此此數位限定了一個殘基中的最大原子數為為99999
13-16
name
字元, 左
Atom name 原子名稱. 原子的元素符號在13-14列中右對齊 一般從14列開始寫, 占四個字元的原子名稱才會從13列開始寫. 如, 鐵原子FE寫在13-14列, 而碳原子C只寫在14列.
17
altLoc
字元
Alternate location indicator 可替位置標示符
18-20
resName
字元
Residue name 殘基名稱
22
chainID
字元
Chain identifier 鏈標識符
23-26
resSeq
整數, 右
Residue sequence number 殘基序列號
27
iCode
字元
Code for insertion of residues 殘基插入碼
28-30
留空
31-38
x
浮點, 右
Orthogonal coordinates for X in Angstroms 直角x坐標(埃)
39-46
y
浮點, 右
Orthogonal coordinates for Y in Angstroms 直角y坐標(埃)
47-54
z
浮點, 右
Orthogonal coordinates for Z in Angstroms 直角z坐標(埃)
55-60
occupancy
浮點, 右
Occupancy 占有率
61-66
tempFactor
浮點, 右
Temperature factor 溫度因子
67-72
留空
73-76
segID
字元, 左
Segment identifier(optional) 可選的片段標識符 VMD會使用此數據
77-78
element
字元, 右
Element symbol 元素符號
79-80
charge
字元
Charge on the atom(optional) 可選的原子電荷. 實際分子模擬中往往重新定義電荷, 故此列往往不用. VMD寫出的PDB檔案中無此列.
HETATM記錄
PDB檔案 HETATM 記錄 列 數據 1-6
HETATM
7-80
與ATOM記錄相同
TER記錄
PDB檔案 TER 記錄 列 數據 格式, 對齊 說明 1-3
TER
字元
7-11
Serial number
整數, 右
序號
18-20
Residue name
字元, 右
殘基名稱
22
Chain identifier
字元
鏈標識符
23-26
Residue sequence number
整數, 右
殘基序列號
27
Code for insertions of residues
字元
殘基插入碼
SSBOND記錄
PDB檔案 SSBOND記錄 列 數據 格式, 對齊 說明 1-6
SSBOND
字元
8-10
Serial number
整數, 右
序號
12-14
Residue name (CYS)
字元, 右
殘基名稱(CYS)
16
Chain identifier
字元
鏈標識符
18-21
Residue sequence number
整數, 右
殘基序列號
22
Code for insertions of residues
字元
殘基插入碼
26-28
Residue name (CYS)
字元, 右
殘基名稱(CYS)
30
Chain identifier
字元
鏈標識符
32-35
Residue sequence number
整數, 右
殘基序列號
36
Code for insertions of residues
字元
殘基插入碼
60-65
Symmetry operator for first residue
整數, 右
第一個殘基的對稱操作
67-72
Symmetry operator for second residue
整數, 右
第二個殘基的對稱操作
HELIX記錄
PDB檔案 HELIX 記錄 列 數據 格式, 對齊 說明 1-5
HELIX
字元, 左
8-10
Helix serial number
整數, 右
螺旋序號
12-14
Helix identifier
字元, 右
螺旋標識符
16-18
Initial residue name
字元, 右
起始殘基名稱
20
Chain identifier
字元
鏈標識符
22-25
Residue sequence number
整數, 右
殘基序列號
26
Code for insertions of residues
字元
殘基插入碼
28-30
Terminal residue name
字元, 右
終止殘基名稱
32
Chain identifier
字元
鏈標識符
34-37
Residue sequence number
整數, 右
殘基序列號
38
Code for insertions of residues
字元
殘基插入碼
39-40
Type of helix
整數, 右
螺旋類型
41-70
Comment
字元, 左
注釋
72-76
Length of helix
整數, 右
螺旋長度
注1: 螺旋類型有如下幾種:
1: Right-handed alpha (default) 右手α螺旋(默認)
2: Right-handed omega 右手ω螺旋
3: Right-handed pi 右手π螺旋
4: Right-handed gamma 右手γ螺旋
5: Right-handed 3/10 右手3/10螺旋
7: Left-handed omega 右手ω螺旋
6: Left-handed alpha 右手α螺旋
8: Left-handed gamma 右手γ螺旋
9: 2/7 ribbon/helix 2/7帶狀螺旋
10: Polyproline 聚脯氨酸
SHEET記錄
PDB檔案 SHEET 記錄 列 數據 格式, 對齊 說明 1-5
SHEET
字元
8-10
Strand number (in current sheet)
整數, 右
束編號(當前片層中)
12-14
Sheet identifier
字元, 右
片層標識符
15-16
Number of strands (in current sheet)
整數, 右
束數目(當前片層中)
18-20
Initial residue name
字元, 右
起始殘基名稱
22
Chain identifier
字元
鏈標識符
23-26
Residue sequence number
整數, 右
殘基序列號
27
Code for insertions of residues
字元
殘基插入碼
29-31
Terminal residue name
字元, 右
終止殘基名稱
33
Chain identifier
字元
鏈標識符
34-37
Residue sequence number
整數, 右
殘基序列號
38
Code for insertions of residues
字元
殘基插入碼
39-40
Strand sense with respect to previous
整數, 右
相對於前一個片層的類型
以下欄位標識兩個原子, 第一個位於當前片層, 第二個位於前一片層, 它們彼此之間以氫鍵相連. 對束1這些欄位應留空.
42-45
Atom name (as per ATOM record)
字元, 左
原子名稱(每個ATOM記錄一個)
46-48
Residue name
字元, 右
殘基名稱
50
Chain identifier
字元
鏈標識符
51-54
Residue sequence number
整數, 右
殘基序列號
55
Code for insertions of residues
字元
殘基插入碼
57-60
Atom name (as per ATOM record)
字元, 左
原子名稱(每個ATOM記錄一個)
61-63
Residue name
字元, 右
殘基名稱
65
Chain identifier
字元
鏈標識符
66-69
Residue sequence number
整數, 右
殘基序列號
70
Code for insertions of residues
字元
殘基插入碼
注2: 類型標識:
格式說明
對於熟悉FORTRAN程式語言的用戶, 下面是格式說明
ATOM或HETATM: Format ( A6,I5,1X,A4,A1,A3,1X,A1,I4,A1,3X,3F8.3,2F6.2,6X,A4,A2,A2 )
SSBOND: Format ( A6,1X,I3,1X,A3,1X,A1,1X,I4,A1,3X,A3,1X,A1,1X,I4,A1,23X,2I3,1X,2I3 )
HELIX: Format ( A6,1X,I3,1X,A3,2(1X,A3,1X,A1,1X,I4,A1),I2,A30,1X,I5 )
SHEET: Format ( A6,1X,I3,1X,A3,I2,2(1X,A3,1X,A1,I4,A1),I2,2(1X,A4,A3,1X,A1,I4,A1) )
在FORTRAN語言的輸入/輸出格式中, X表示輸入/輸出空格; An表示輸入/輸的字元串占n位, 左對齊; In表示輸入/輸的整數占n位, 左對齊; Fm.n表示輸入/輸的浮點數占m位, 其中小數點後的數字占n位. 這些格式前面的整數則表示重複次數, 如23X表示23個空格, 3F8.3表示F8,3格式重複三次.
如果你使用其他程式語言, 可根據上面的格式說明轉換為相應的形式.
PDB檔案示例單鏈蛋白
胰升血糖素(Glucagon)是一個小蛋白, 29個殘基處於單條鏈中. 第一個殘基是終端為氨的胺基酸HIS, 接著的是SER和GLU殘基. 坐標部分開頭如下:
1 2 3 4 5 6 7 812345678901234567890123456789012345678901234567890123456789012345678901234567890ATOM 1 N HIS 1 49.668 24.248 10.436 1.00 25.00ATOM 2 CA HIS 1 50.197 25.578 10.784 1.00 16.00ATOM 3 C HIS 1 49.169 26.701 10.917 1.00 16.00ATOM 4 O HIS 1 48.241 26.524 11.749 1.00 16.00ATOM 5 CB HIS 1 51.312 26.048 9.843 1.00 16.00ATOM 6 CG HIS 1 50.958 26.068 8.340 1.00 16.00ATOM 7 ND1 HIS 1 49.636 26.144 7.860 1.00 16.00ATOM 8 CD2 HIS 1 51.797 26.043 7.286 1.00 16.00ATOM 9 CE1 HIS 1 49.691 26.152 6.454 1.00 17.00ATOM 10 NE2 HIS 1 51.046 26.090 6.098 1.00 17.00ATOM 11 N SER 2 49.788 27.850 10.784 1.00 16.00ATOM 12 CA SER 2 49.138 29.147 10.620 1.00 15.00ATOM 13 C SER 2 47.713 29.006 10.110 1.00 15.00ATOM 14 O SER 2 46.740 29.251 10.864 1.00 15.00ATOM 15 CB SER 2 49.875 29.930 9.569 1.00 16.00ATOM 16 OG SER 2 49.145 31.057 9.176 1.00 19.00ATOM 17 N GLN 3 47.620 28.367 8.973 1.00 15.00ATOM 18 CA GLN 3 46.287 28.193 8.308 1.00 14.00ATOM 19 C GLN 3 45.406 27.172 8.963 1.00 14.00
注意到, 每一行(記錄)都以記錄類型ATOM開始, 記錄中的下一項是原子序號.
原子名稱是ATOM記錄中的第三項, 它的前一或二個字元包含原子類型的元素符號. 所有以C開始的原子名稱都代表碳原子, 同理, N代表氮原子, O代表氧原子. 原子名稱的下一字元為遠程標識符, 表示離氨基碳原子的遠近, 含義如下
A: α
B: β
G: γ
D: δ
E: ε
Z: ζ
H: η
如果需要, 原子名稱的最後一個字元可以代表分支標識符.
ATOM記錄的下一數據欄位為殘基類型. 注意, 每一 記錄都包含殘基類型. 在上面的例子中, 鏈中的第一個殘基為HIS, 第二個為SER.
ATOM記錄的下一數據欄位為殘基的序列號. 注意到, 殘基從HIS變為SER後, 殘基序列號從1變為2. 兩個相同的殘基可能相鄰, 因此殘基編號對於區分它們非常重要.
ATOM記錄的下三個數據欄位分別為原子的X, Y, Z坐標. 後面接著的數據欄位是占有率. 最後的數據欄位是溫度因子(也稱B值).
胰升血糖素的PDB檔案以這種方式繼續下去, 直至最後一個殘基
1 2 3 4 5 6 7 812345678901234567890123456789012345678901234567890123456789012345678901234567890ATOM 239 N THR 29 3.391 19.940 12.762 1.00 21.00ATOM 240 CA THR 29 2.014 19.761 13.283 1.00 21.00ATOM 241 C THR 29 .826 19.943 12.332 1.00 23.00ATOM 242 O THR 29 .932 19.600 11.133 1.00 30.00ATOM 243 CB THR 29 1.845 20.667 14.505 1.00 21.00ATOM 244 OG1 THR 29 1.214 21.893 14.153 1.00 21.00ATOM 245 CG2 THR 29 3.180 20.968 15.185 1.00 21.00ATOM 246 OXT THR 29 -.317 20.109 12.824 1.00 25.00TER 247 THR 29
注意, 這一殘基包含額外的氧原子OXT, 它處於末端羰基上. TER記錄終止了胺基酸鏈.
雙鏈蛋白
更複雜的一個蛋白, 胎血紅蛋白(fetal hemoglobin), 包含兩條殘基酸鏈(α和γ), 以及兩個血紅素基團. 這個蛋白坐標部分的前10行內容如下:
1 2 3 4 5 6 7 812345678901234567890123456789012345678901234567890123456789012345678901234567890ATOM 1 N VAL A 1 6.280 17.225 4.929 1.00 0.00ATOM 2 CA VAL A 1 6.948 18.508 4.671 1.00 0.00ATOM 3 C VAL A 1 8.436 18.338 4.977 1.00 0.00ATOM 4 O VAL A 1 8.813 17.657 5.941 1.00 0.00ATOM 5 CB VAL A 1 6.317 19.598 5.527 1.00 0.00ATOM 6 CG1 VAL A 1 6.959 20.999 5.376 1.00 0.00ATOM 7 CG2 VAL A 1 4.819 19.636 5.383 1.00 0.00ATOM 8 N LEU A 2 9.259 18.958 4.152 1.00 0.00ATOM 9 CA LEU A 2 10.715 18.872 4.330 1.00 0.00ATOM 10 C LEU A 2 11.156 20.058 5.187 1.00 0.00
數據檔案與上面胰升血糖素的基本一樣, 除了第五個數據欄位包含單個字元的鏈標識符A, 它標識血紅蛋白分子的α鏈. 而在胰升血糖素的例子中, 這一欄位為空. 在鏈A的終止處, 出現血紅素基團的記錄
1 2 3 4 5 6 7 812345678901234567890123456789012345678901234567890123456789012345678901234567890ATOM 1058 N ARG A 141 -6.576 12.834 -10.275 1.00 0.00ATOM 1059 CA ARG A 141 -8.044 12.831 -10.214 1.00 0.00ATOM 1060 C ARG A 141 -8.186 14.096 -9.365 1.00 0.00ATOM 1061 O ARG A 141 -7.591 15.139 -9.671 1.00 0.00ATOM 1062 CB ARG A 141 -8.579 11.531 -9.580 1.00 0.00ATOM 1063 CG ARG A 141 -8.386 11.441 -8.054 1.00 0.00ATOM 1064 CD ARG A 141 -8.727 10.045 -7.568 1.00 0.00ATOM 1065 NE ARG A 141 -9.095 10.056 -6.143 1.00 0.00ATOM 1066 CZ ARG A 141 -9.268 8.931 -5.414 1.00 0.00ATOM 1067 NH1 ARG A 141 -8.602 8.795 -4.282 1.00 0.00ATOM 1068 NH2 ARG A 141 -10.097 7.962 -5.830 1.00 0.00ATOM 1069 OXT ARG A 141 -8.973 13.984 -8.310 1.00 0.00TER 1070 ARG A 141HETATM 1071 FE HEM A 1 8.133 8.321 -15.014 1.00 0.00HETATM 1072 CHA HEM A 1 8.863 8.752 -18.417 1.00 0.00HETATM 1073 CHB HEM A 1 10.362 10.946 -14.389 1.00 0.00HETATM 1074 CHC HEM A 1 8.482 7.374 -11.743 1.00 0.00HETATM 1075 CHD HEM A 1 6.982 5.180 -15.773 1.00 0.00HETATM 1076 N A HEM A 1 9.452 9.545 -16.178 1.00 0.00
α鏈中最後一個殘基為ARG, 額外的氧原子OXT同樣出現在末端羰基基團中. TER記錄標識了多肽鏈的結束. 在多肽鏈的結束處使用TER記錄非常重要, 這樣, 才不至於將一條鏈的終結處與另一條鏈的起始處相連.
上面的例子中, TER記錄是正確的, 並且應該存在. 但是, 即便沒有TER記錄標識, 分子鏈仍然應該在某處終止, 因為HETATM殘基不會與其他殘基相連, 或互相相連. 作為單個殘基的血紅素基團由HETATM記錄組成.
在α鏈血紅素基團的結束處, γ鏈開始出現:
1 2 3 4 5 6 7 812345678901234567890123456789012345678901234567890123456789012345678901234567890HETATM 1109 CAD HEM A 1 7.582 6.731 -20.480 1.00 0.00HETATM 1110 CBD HEM A 1 8.992 6.848 -20.968 1.00 0.00HETATM 1111 CGD HEM A 1 8.998 6.529 -22.465 1.00 0.00HETATM 1112 O1D HEM A 1 9.693 5.683 -22.895 1.00 0.00HETATM 1113 O2D HEM A 1 8.276 7.153 -23.229 1.00 0.00ATOM 1114 C ACE G 0 7.896 -18.462 -1.908 1.00 0.00ATOM 1115 O ACE G 0 7.246 -18.839 -.922 1.00 0.00ATOM 1116 CH3 ACE G 0 9.415 -18.301 -1.832 1.00 0.00ATOM 1117 N GLY G 1 7.354 -18.174 -3.077 1.00 0.00ATOM 1118 CA GLY G 1 5.904 -18.282 -3.283 1.00 0.00ATOM 1119 C GLY G 1 7.139 -19.112 -2.930 1.00 0.00ATOM 1120 O GLY G 1 7.026 -20.248 -2.448 1.00 0.00ATOM 1121 N HIS G 2 8.300 -18.533 -3.176 1.00 0.00ATOM 1122 CA HIS G 2 9.565 -19.224 -2.889 1.00 0.00
這裡, 新鏈的開始隱含著TER記錄存在. 新鏈的標識符為G. 整個檔案以與前面相同的模式繼續下去, 到整條γ鏈及其血紅素結束.
數據欄位中的空格非常關鍵. 如果沒有提供數據, 相應的欄位應該留空. 例如, 僅包含單條胺基酸鏈的蛋白沒有鏈標識符, 因此, 22列應該留空.
對於上面的例子, 看起來PDB格式依賴於 殘基 的概念. 殘基的規則總結如下:
所有處於單個殘基內的原子都必須具有唯一的名稱. 例如, 殘基VAL可能只有一個名稱為CA的原子. 其他殘基可能也含有CA原子, 但VAL中出現的CA不能超過一個.
殘基名稱最大長度為三個字元, 並且能唯一地標識殘基類型. 因此, 檔案中具有給定名稱的所有殘基都具有相同的殘基類型, 相同的結構. 每個特定殘基在PDB檔案中出現時都應具有相同的原子和連線性.
PDB格式檔案中的常見錯誤
如果一個PDB檔案無法正常展示, 在其成百上千行數據中找到錯誤位置有時很困難. 這裡給出PDB檔案中一些最常見的錯誤.
程式創建的PDB檔案
虛假的超長鍵
由程式創建的PDB檔案中, 常見的一種錯誤會導致在本來不該相連的殘基間顯示出非常長的鍵. 這種錯誤來自於缺少了分子鏈結束處的TER記錄. 根據PDB標準, TER記錄標識了分子鏈的結束. 檔案中如果缺失了TER記錄, 應該插入它們. 或者, 作為替代方法, 對每條鏈使用不同的鏈標識符.
顯示超長鍵的第二個常見原因是不正確地使用ATOM記錄, 而不使用HETATM記錄. HETATM記錄應該用於那些不形成鏈的化合物, 如水或血紅素. 許多程式創建的PDB檔案沒有正確地使用HETATM記錄. 在這種情況下, ATOM記錄的開頭 6 列應改為HETATM, 這樣, 其餘列的排列仍然正確.
未正確排列的原子名稱
PDB記錄中未正確排列的原子名稱可能導致問題. ATOM和HETATM記錄中的原子名稱由下列內容組成: 元素符號(如C), 右 對齊在13-14列中; 遠程標識字元(如A), 左 對齊在15-16列中. 許多程式只是簡單地從第13列開始將整個原子名稱左對齊. 在下面血紅蛋白的一部分檔案中可以清楚地看到區別:
正確的
1 2 3 4 5 6 7 812345678901234567890123456789012345678901234567890123456789012345678901234567890HETATM 976 FE HEM 1 12.763 34.157 9.102 1.00 0.00HETATM 977 CHA HEM 1 16.124 33.461 10.405 1.00 0.00HETATM 978 CHB HEM 1 11.350 32.580 12.046 1.00 0.00HETATM 979 CHC HEM 1 9.326 34.709 7.887 1.00 0.00HETATM 980 CHD HEM 1 14.138 35.379 6.119 1.00 0.00
錯誤的
1 2 3 4 5 6 7 812345678901234567890123456789012345678901234567890123456789012345678901234567890HETATM 976 FE HEM 1 12.763 34.157 9.102 1.00 0.00HETATM 977 CHA HEM 1 16.124 33.461 10.405 1.00 0.00HETATM 978 CHB HEM 1 11.350 32.580 12.046 1.00 0.00HETATM 979 CHC HEM 1 9.326 34.709 7.887 1.00 0.00HETATM 980 CHD HEM 1 14.138 35.379 6.119 1.00 0.00
手動創建的PDB檔案
重複的原子名稱
在手動創建的PDB檔案中, 一個可能的編輯錯誤是, 對於一個給定殘基中的所有原子沒有指定唯一的名稱. 在下面的例子中, 殘基VAL中有兩個原子具有名稱CA.
1 2 3 4 5 6 7 812345678901234567890123456789012345678901234567890123456789012345678901234567890ATOM 1 N VAL A 1 6.280 17.225 4.929 1.00 0.00ATOM 2 CA VAL A 1 6.948 18.508 4.671 1.00 0.00ATOM 3 C VAL A 1 8.436 18.338 4.977 1.00 0.00ATOM 4 O VAL A 1 8.813 17.657 5.941 1.00 0.00ATOM 5 CA VAL A 1 6.317 19.598 5.527 1.00 0.00ATOM 6 CG1 VAL A 1 6.959 20.999 5.376 1.00 0.00ATOM 7 CG2 VAL A 1 4.819 19.636 5.383 1.00 0.00ATOM 8 N LEU A 2 9.259 18.958 4.152 1.00 0.00ATOM 9 CA LEU A 2 10.715 18.872 4.330 1.00 0.00ATOM 10 C LEU A 2 11.156 20.058 5.187 1.00 0.00
取決於所用的可視化程式, 可能無法正確顯示殘基的連線, 或者只有當標記殘基才會給出缺少CB原子的錯誤.
序列之外的殘基
在下面的例子中, 出現於檔案中的第二個殘基(SER)被錯誤地編號為殘基5. 許多可視化程式會顯示殘基5與殘基1和3相連, 但只有當初確實需要這樣時才正確. 如果殘基5被假定出現在殘基4和殘基6之間, 它就應該出現在那裡.
1 2 3 4 5 6 7 812345678901234567890123456789012345678901234567890123456789012345678901234567890ATOM 1 C HIS 1 49.169 26.701 10.917 1.00 16.00ATOM 2 CA HIS 1 50.197 25.578 10.784 1.00 16.00ATOM 3 CB HIS 1 51.312 26.048 9.843 1.00 16.00ATOM 4 CD2 HIS 1 51.797 26.043 7.286 1.00 16.00ATOM 5 CE1 HIS 1 49.691 26.152 6.454 1.00 17.00ATOM 6 CG HIS 1 50.958 26.068 8.340 1.00 16.00ATOM 7 N HIS 1 49.668 24.248 10.436 1.00 25.00ATOM 8 ND1 HIS 1 49.636 26.144 7.860 1.00 16.00ATOM 9 NE2 HIS 1 51.046 26.090 6.098 1.00 17.00ATOM 10 O HIS 1 48.241 26.524 11.749 1.00 16.00ATOM 11 C SER 5 47.713 29.006 10.110 1.00 15.00ATOM 12 CA SER 5 49.138 29.147 10.620 1.00 15.00ATOM 13 CB SER 5 49.875 29.930 9.569 1.00 16.00ATOM 14 N SER 5 49.788 27.850 10.784 1.00 16.00ATOM 15 O SER 5 46.740 29.251 10.864 1.00 15.00ATOM 16 OG SER 5 49.145 31.057 9.176 1.00 19.00ATOM 17 C GLN 3 45.406 27.172 8.963 1.00 14.00ATOM 18 CA GLN 3 46.287 28.193 8.308 1.00 14.00
輸入錯誤
有時字母l和數字1被互相替換了. 取決於這種錯誤在檔案中出現的位置, 導致的問題也不一樣. 錯誤放置的原子可能預示著錯誤出現在坐標欄位中. 確定這種錯誤的一種方式是, 使用大寫字母表示檔案中的數據, 然後使用文本編輯器查找所有的小寫字母l.
氫原子約定
PDB檔案中的氫原子約定如下:
出現在ATOM記錄中的氫原子, 處於特定殘基所有其他原子的後面.
每個氫原子的名稱根據與它相連原子的名稱來確定: 名稱的第一個位置(13列)為可選的數字, 當有兩個或多個氫原子與同一個原子相連時才使用; 第二個位置(14列)為元素符號H; 接下來的兩列包含與氫原子相連原子的遠程和分支標識符(1或2個字元).
示例如下
1 2 3 4 5 6 7 812345678901234567890123456789012345678901234567890123456789012345678901234567890ATOM 1 N VAL 1 -13.090 1.966 9.741 1.00 0.00ATOM 2 CA VAL 1 -12.852 3.121 8.892 1.00 0.00ATOM 3 C VAL 1 -13.047 4.399 9.711 1.00 0.00ATOM 4 O VAL 1 -12.143 5.228 9.800 1.00 0.00ATOM 5 CB VAL 1 -13.753 3.058 7.658 1.00 0.00ATOM 6 CG1 VAL 1 -13.930 4.446 7.036 1.00 0.00ATOM 7 CG2 VAL 1 -13.208 2.063 6.631 1.00 0.00ATOM 8 H VAL 1 -13.919 1.449 9.527 1.00 0.00ATOM 9 HA VAL 1 -11.816 3.075 8.557 1.00 0.00ATOM 10 HB VAL 1 -14.734 2.707 7.977 1.00 0.00ATOM 11 1HG1 VAL 1 -13.951 4.357 5.950 1.00 0.00ATOM 12 2HG1 VAL 1 -14.866 4.883 7.384 1.00 0.00ATOM 13 3HG1 VAL 1 -13.098 5.085 7.333 1.00 0.00ATOM 14 1HG2 VAL 1 -12.623 1.298 7.142 1.00 0.00ATOM 15 2HG2 VAL 1 -14.039 1.594 6.104 1.00 0.00ATOM 16 3HG2 VAL 1 -12.575 2.588 5.917 1.00 0.00
在上面的例子中
所有氫原子都出現在殘基的其他原子之後
9號原子HA與2號原子CA相連. 這兩個原子的遠程標識符A相同.
有三個氫原子與CG1相連. 它們具有相同的遠程標識符, 分支標識符, 但13列中含有區分數字, 因此每個氫原子都具有唯一的名稱.
當只有一個氫原子與給定原子相連時, 不需要使用數字作為氫原子名稱的前綴.
胺基酸殘基與核酸縮寫
胺基酸殘基和核酸的標準IUB/IUPAC縮寫 單字母 三字母 中文 單字母 三字母 中文 單字母 三字母 中文 單字母 中文 A
Ala
丙氨酸
I
Ile
異亮氨酸
R
Arg
精氨酸
A
腺苷
C
Cys
半胱氨酸
K
Lys
賴氨酸
S
Ser
絲氨酸
C
胞苷
D
Asp
天門冬氨酸
L
Leu
亮氨酸
T
Thr
蘇氨酸
G
鳥苷
E
Glu
谷氨酸
M
Met
蛋氨酸
V
Val
纈氨酸
I
肌苷
F
Phe
苯丙氨酸
N
Asn
天門冬醯胺
W
Trp
色氨酸
T
胸苷
G
Gly
甘氨酸
P
Pro
脯氨酸
Y
Tyr
酪氨酸
U
尿苷
H
His
組氨酸
Q
Gln
谷氨醯胺
X
Unk
未指定或未知胺基酸
X
未指定或未知核酸
一些概念說明溫度因子 B-factoer
The B-factor (or temperature factor) is an indicator of thermal motion about an atom. However, it should be pointed out that the B-factor is a mix of real thermal displacement, static disorder (multiple but defined conformations) and dynamic disorder (no defined conformation), and all the overlap between these definitions.
B因子也叫溫度因子, 一般在晶體測定的pdb中都有, 是晶體學中的一個重要參數. 晶體學中結構因子可以表達為坐標x, y, z與Bj因子的函式. 物理學上對於Bj的表征有很多理論模型, 最成功的是由Debye和Waller提出的. 將固體內振盪的量子本質計算在內後, 他們將Bj表征為絕對溫度T和其他各基本參數的函式. 由此可見, Bj與原子的質量等基本性質有關, 也與實驗溫度有關.
B因子體現了晶體中原子電子密度的”模糊度”(diffusion), 這個”模糊度”實際上反映了蛋白質分子在晶體中的構象狀態. B因子越高, “模糊度”越大, 相應部位的構象就越不穩定. 在晶體學數據中, B因子一般是以原子為單位給出的, 我們可以換算成相應殘基的B因子, 從而分析殘基的構象穩定性. 另外, 計算出的B因子中實際上包含了實驗中的很多因素, 如晶體結構測定的實驗誤差等, 精度高的晶體結構數據提供較可靠的B因子數據.
此外, 另外溫度因子還和占有率相關, 如果本身結構解析過程中占有率低, 也會導致溫度因子升高. 這個時候只能說是X-ray收集數據的時候這個地方的信號比較弱, 而和結構本身的構象如何, 沒有關係.
PDB中的晶體學數據是以原子為單位的, 它所給出的B因子是相對於每個原子的. 統計中, 首先將原子的B因子換算成殘基的B因子, 即把每個殘基所有原子的B因子取平均值. 由於蛋白質分子表面殘基的運動性比較大, B因子相對較高, 所以在統計中除去了這部分殘基, 具體方法是將數據中B因子高的殘基去掉10%, 對剩下的殘基進行統計, 計算平均值.
溫度因子做圖後可以體現蛋白某些部位的活動性和柔韌性. 它也可以由計算rmsf得到. 在GROMACS中, g_rmsf可以將rmsf換算成B因子輸出至pdb. 與晶體測定結構中的B因子相比較, 如果呈較好的相關, 可以說明模擬的過程是正常, 合理的. 但pdb中的B因子都是原子的, 一般是比較殘基間的, 可以轉換一下.
R-facter
In overview, the R-factor is a measure of how well a particular model structure fits the observed electron density. Or simply, “a measure of agreement between the crystallographic model and the original X-ray diffraction data”.