理解生物信息學

理解生物信息學

《理解生物信息學》是2012年2月25日科學出版社出版的圖書,作者是M.澤瓦勒貝、JO.鮑姆,譯者是李亦學、郝沛主。

基本介紹

  • 書名:理解生物信息學
  • 作者:M.澤瓦勒貝、JO.鮑姆  
  • 譯者李亦學、郝沛主
  • ISBN:9787030328328
  • 出版社:科學出版社
  • 出版時間:2012年2月25日
  • 裝幀:平裝
內容簡介,編輯推薦,目錄,

內容簡介

《理解生物信息學》是一本集生物信息學專業參考書和教材於一體的書,共分為7部分:基礎知識、序列聯配、進化過程、基因組特徵、二級結構、蛋白質三級結構、細胞和組織,以及附錄和字元表等。每部分由不同章節構成,大多數章節可以被歸為套用章節或理論章節。因此在每部分開始時,都有套用章節,描述了特定研究領域較實用的方面。理論章節則緊隨其後,解釋了其科學、理論基礎以及在已有套用中所使用的技術。《理解生物信息學》還提供了思維導圖、流程圖、擴展閱讀等其他書不常見的內容,以供讀者能夠在每一章、每一節開始時對整體內容有所把握,並能夠了解更多擴展知識、發展技能的參考文獻。《理解生物信息學》適合分子生物學、生物信息學專業及生物醫學領域的師生和研究者參考使用。

編輯推薦

《理解生物信息學》編輯推薦:學習效果:每章開篇都有一個學習效果列表,它總結了該章所涉及的主題,可作為一個反饋清單。
思維導圖:每一章都含有一個思維導圖,這是《理解生物信息學》一個特別的教學特徵,它確保每個學生都能看到並記住一些特定套用中所必需的步驟。偶爾地,思維導圖的兩個獨立方面也可能有著重要的關聯。
流程圖:每一章的每個小節都有一個流程圖以幫助讀者記憶該小節所涵蓋的主題。作為示例,下面給出了第5章的一個流程圖,其中在本節將要解釋的概念用深灰色框標註,且相互間用箭頭連線起來。例如,兩種主要類型的最優聯配:局部和全局將在本章的這一節描述。那些已在之前小節描述過的概念用淺灰色框標註,這樣我們就很容易了解本節涉及的主題和已介紹過的主題間的聯繫。例如,構建聯配需要為空缺打分的方法和為替換打分的方法,兩者都已經在這一章描述過了。通過這種方式,整章涉及的主要概念以及相互間的關係就能漸漸地被構架出來。
插圖:每一章都配有插圖。插圖的配置是經過充分考慮的,以保證既簡單易懂又與本書其他章節保持連貫一致。
擴展閱讀:在這么一個快速發展的學科中,我們不可能在這本有限的《理解生物信息學》囊括現有的所有知識,更不用說將來的發展了。因此在每章的結尾我們都列了一些研究文獻和專業著作的參考文獻以幫助讀者進一步擴展知識、發展技能。我們根據不同主題收集文章,使得擴展閱讀中每節都與這一章相應小節的內容相對應。我們希望這能幫助閱讀者以最快的速度找到他們感興趣的擴展材料。
字元表:生物信息學需要使用很多符號,對還不了解生物信息的人來說,許多符號都是不熟悉的。為了幫助讀者了解本書適用的符號,我們在《理解生物信息學》後面給出了引用的每個符號、它的定義以及它在本書最常出現的位置的列表。
名詞解釋:在文中,所有技術術語在第一次出現時都用黑體顯示,且在名詞解釋中列出其相應的解釋。此外,每個在名詞解釋中的術語都會出現在索引中,這樣讀者就能很快獲得詳細介紹這一術語的相應頁碼。《理解生物信息學》設計成可以進行交叉參考,以儘可能幫助讀者閱讀。
圖版:《理解生物信息學》所有的英文原圖都可以在GarlandScience網站上下載。插圖檔案以.zip格式保存,其中每個.zip檔案對應一章。每張圖都可以從相應的.zip檔案中以.jpg的格式解壓出來。
更多材料:GarlandScience的網站還包括一些與《理解生物信息學》主題相關的額外的材料。7個部分中任何一部分都對應一個.pdf檔案,它通過一系列與這些章節內容相關的有用的網址連結,能連結到一些的有用的資料庫、檔案格式定義、免費的程式以及允許數據線上分析的伺服器上。此外,在闡述分析方法時所用到的數據也會被提供。這就允許讀者對同一數據重新進行分析,重現《理解生物信息學》所顯示的結果,並嘗試其他技術。

目錄

譯者序
前言
給閱讀者的短箋
致謝名單
第1部分 基礎知識
第1章 核酸的世界 3
1.1 DNA和 RNA的結構 4
DNA分子是由4種不同類型的鹼基組成的線性多聚體 4
兩條互補 DNA鏈通過鹼基配對形成雙螺旋 6
RNA分子通常為單鏈結構,但在某些情況下可形成鹼基配對結構 6
1.2 DNA?RNA和蛋白質:中心法則 8
DNA是信息載體,而 RNA則是信使 9
信使RNA根據遺傳密碼翻譯產生蛋白質 10
翻譯過程涉及了含 DNA和 RNA的核糖體的轉移 11
1.3 基因結構和基因調控 12
特定的定位序列能和 RNA聚合酶結合,並識別轉錄起始點 13
真核生物中的轉錄起始信號遠比細菌中複雜得多 14
真核生物 mRNA轉錄物在翻譯前需經歷一系列修飾 15
翻譯的調控 16
1.4 生命與進化之樹 16
主要生命形式的基本特徵 17
突變可以改變核苷酸序列 18
總結 19
名詞解釋 19
擴展閱讀 21
第2章 蛋白質結構 22
2.1 初級結構和二級結構 23
我們可從多個不同水平考察蛋白質結構 23
胺基酸是蛋白質的組成單位 24
側鏈決定了胺基酸化學和物理特性的不同 24
蛋白質鏈中的胺基酸通過肽鍵共價連線 26
蛋白質的二級結構由α螺旋?β鏈構成 28
在蛋白質結構中已發現了幾種不同類型的β摺疊片 31
螺旋和鏈通過轉角?髮夾結構和環連線 31
2.2 對生物信息學的啟發 32
某些胺基酸傾向於形成特定的結構單元 32
從進化角度幫助序列分析 32
蛋白質結構的計算和可視化 32
2.3 蛋白質通過摺疊形成緊湊的結構 33
蛋白質的三級結構是通過多肽鏈的路徑來定義的 34
蛋白質摺疊的穩定狀態是能量最低的狀態 35
很多蛋白質是由多個亞基組成的 35
總結 35
名詞解釋 36
擴展閱讀 37
第3章 資料庫的處理 38
3.1 資料庫的結構 39
平面檔案資料庫以文本檔案的方式存儲數據 40
關係資料庫廣泛套用於存儲生物信息 41
XML的靈活性可以確定定製的數據分類 42
一些用於生物數據的其他資料庫結構 42
資料庫可以通過本地訪問或通過網際網路相互連結 43
3.2 資料庫類型 43
資料庫中不僅僅是數據 44
原始數據和衍生數據 44
我們如何定義和連結事物的重要性:本體 44
3.3 資料庫搜尋 45
序列資料庫 46
晶片資料庫 46
蛋白質相互作用資料庫 50
結構資料庫 50
3.4 數據質量 51
o?o 非冗餘性對一些套用特別重要 52
自動化方法可用於檢查數據的一致性 52
初步的分析和注釋通常是自動化完成的 53
為了產生高質量的注釋經常需要人為干預 53
資料庫更新和條目注釋版本號的重要性 53
總結 54
名詞解釋 54
擴展閱讀 55
第2部分 序列聯配
第4章 產生和分析序列聯配 59
4.1 序列聯配的原理 60
聯配是在兩個或更多序列的相同區域尋找最大相似性的任務 60
聯配可以揭示序列間的同源性 61
比較蛋白質序列比核酸序列更容易檢測同源性 62
4.2 聯配分值 62
一個聯配的質量是通過給予一個量化的分值來衡量的 62
量化兩個序列間的相似性的最簡單的方法是百分數 62
基於一致度的點圖可以可視化地評價相似性 63
真正的匹配不必相同 65
最低一致度比可以被接受為具有顯著性 66
對於打分聯配有許多不同的方法 66
4.3 替代矩陣 66
使用替代矩陣對每個排列後的序列位點分配一個單獨的值 66
PAM 替代矩陣使用密切相關的蛋白質序列集的替代頻率 66
BLOSUM 替代矩陣使用了局部高度保守區域序列的突變數據 67
替代矩陣的選擇取決於要解決的問題 67
4.4 插入空缺 68
在序列插入空缺以達到和另一條序列的相似度最大,需要罰分制度 68
動態規划算法可以決定引入最優空缺 69
4.5 聯配類型 69
對於不同情況採用不同類型的聯配 69
多重序列聯配能同時比較一些相似序列 71
有幾種不同的技術可構造多重聯配 72
多重聯配可以提高低相似性序列聯配的精確度 72
ClustalW 可以對 DNA和蛋白質序列進行全局聯配 72
通過合併一些局部聯配可以構建多重聯配 73
增加新信息可以改進聯配 74
4.6 檢索資料庫 74
已開發了快速而準確的搜尋算法 75
FASTA格式是一個基於較短的相同片段
匹配的快速的資料庫搜尋方法 75
BLAST的基礎在於發現非常相似的短片段 75
對不同的問題採用不同版本的BLAST和FASTA 75
PSI?BLAST基於配置檔案的資料庫搜尋 76
SSEARCH 是一個嚴格的聯配方法 76
4.7 搜尋核酸或蛋白質序列 76
可直接使用或翻譯後的 DNA或 RNA序列 76
必須測試資料庫的匹配質量,以確保其不可能是偶然發生 77
選擇一個適當的犈值的閾值有助於限制資料庫搜尋 77
低複雜度區域可以將同源性搜尋複雜化 79
不同的資料庫可以用來解決具體問題 79
4.8 蛋白質序列模體或模式 81
建立資料庫的模式需要專業知識 82
BLOCKS資料庫包含自動編譯的保守蛋白質序列的多重聯配的較短序列模組 82
4.9 使用模式和模體搜尋 83
可以在PROSITE資料庫中搜尋蛋白質的模式和模體 83
基於模式的PHI?BLAST程式同時搜尋同源性和模體匹配 84
可以使用PRATT從多條序列產生模式 84
PRINTS資料庫包括了指紋圖譜,描述一個蛋白質家族的一些保守模體 84
Pfam資料庫定義了蛋白質家族的表達譜 85
4.10 模式和蛋白質功能 85
可以搜尋蛋白質上特定的功能位點 85
序列比較不是唯一分析蛋白質序列的途徑85
總結 86
名詞解釋 87
擴展閱讀 88
第5章 序列比對及資料庫搜尋 90
5.1 替換矩陣和打分 91
聯配分值用於衡量公共進化祖先的似然性91
PAM (MDM)替代打分矩陣用於探索蛋白質進化起源 92
BLOSUM 矩陣用於尋找保守的蛋白質區域94
用於核苷酸聯配的打分矩陣需由相似的方式得到 96
替換打分矩陣必須適用於特定的聯配問題97
插入空缺的打分相對替換而言使用了更為啟發式的方法 97
5.2 動態規划算法 98
使用改進後的 Needleman?Wunsch算法構建全局最優聯配 99
對動態規划算法的簡單改進就能用於局部序列聯配 104
不計算完整的矩陣,犧牲精確度提高時間效率 106
5.3 索引技術和近似算法 108
後綴樹定位和獨特及重複序列的位置 108
散列索引是一種技術,列出了所有k的起始位置元組 (k?tuples) 109
FASTA算法使用哈希算法和快速連結進行資料庫搜尋 110
BLAST算法利用了有限狀態自動機 111
直接比較核酸序列和蛋白質序列,需要對BLAST和FASTA進行特殊的調整 114
5.4 聯配分值的顯著性 116
有空缺局部聯配的統計可以按相似的算法進行 117
5.5 聯配全基因組序列 118
有效索引和掃描全基因組序列對高等生物序列比對至關重要 118
密切關聯的物種基因組之間複雜進化關係需要創新的聯配算法 119
總結 120
名詞解釋 121
擴展閱讀 122
第6章 模式?序列和多序列比對 124
6.1 序列和序列標記 125
位置特異性分數矩陣是得分矩陣的擴展 125
解決構建PSSM 時數據缺失問題的方法 127
PSI?BLAST是一個序列資料庫檢索程式 130
將序列表現為序列標記 131
6.2 譜式隱馬爾可夫模型 132
用於序列比對的 HMM 的基本結構 133
利用聯配序列建立 HMM 參數 137
利用譜式 HMM 給序列打分:最大可能路徑以及所有路徑的總和 138
利用未聯配序列評估 HMM 參數 140
6.3 序列聯配 141
利用聯配比較兩個PSSM 141
聯配譜式 HMM 143
6.4 利用序列遞增 (gradualsequence addition)的多序列比對 144
序列添加的順序是基於評估合併聯配錯誤可能性而決定的 145
許多不同的打分策略用於建立多序列聯配147
多序列聯配是利用嚮導樹以及譜式方法構建的,且可能進一步改進 149
6.5 其他獲得多序列聯配的方法 152
多序列聯配程式 DIALIGN聯配無間隙的區段152
利用遺傳算法的SAGA多序列聯配方法 153
6.6 序列模式發現 154
在多序列聯配中查找模式:eMOTIF和AACC 157
序列中共有模式的機率查詢:Gibbs和MEME 158
總結 159
名詞解釋 160
擴展閱讀 161
第3部分 進化過程
第7章 重現進化歷史 167
7.1 系統發生樹的結構和解釋 168
系統發生樹重建進化關係 168
用幾種方式描述樹的拓撲結構 172
一致樹和可信樹報告拓撲結構的比較結果 174
7.2 分子進化及其結果 176
大多數相關序列有許多變異了幾次的位置176
可接受突變速率對所有類型的鹼基替換通常是不相同的 178
密碼子不同位置有不同的突變速率 179
只應該用直系同源基因構建物種系統發生樹 181
基因組大區域變化是常見的 187
7.3 系統發生樹構建 187
核糖體小亞基rRNA序列非常適用於重建物種的進化 187
構樹方法的選擇在某種程度上依賴於數據集的大小和質量 188
在使用這些方法時必需選擇一個進化模型 189
所有的系統發生分析必須以精確的多序列比對開始 191
16SRNA序列的一個小數據集的系統發生分析 192
為酶家族建立基因樹有助於發現酶功能的進化 194
總結 198
名詞解釋 199
擴展閱讀 200
第8章 構建系統發生樹 203
8.1 進化模型和進化距離的計算 204
一個簡單但不精確衡量進化距離的是狆距離 204
Poisson校正距離考慮了同一位點上的多次突變 204
Gamma校正距離考慮了不同的序列位點上突變速率的差異 205
Jukes?Cantor模型再現了核苷酸序列進化的一些基本特徵 205
更複雜的模型區分不同類型突變的相對頻率 206
在 DNA序列上存在核苷酸的偏好 208
蛋白質序列的進化模型和用於序列聯配的替代矩陣密切相關 208
8.2 產生系統發生樹 209
聚類方法基於進化距離產生一個系統發育樹 209
UPGMA方法假定一個恆定的分子鐘,並產生一個等距樹 210
Fiteh?Margoliash方法產生一個無根的加性樹 211
鄰接法:此方法涉及最小進化的概念 212
通常使用逐步增加和星形分解方法用以產生一棵起始樹用於進一步的探索,這不是最終樹 214
8.3 產生多種樹的拓撲結構 216
分枝限界法大大提高了搜尋樹的拓撲結構的效率 216
可以通過對一個現存樹做一系列細小的變化以最佳化樹拓撲結構 217
尋找根給出了系統發生樹在時間上的方向220
8.4 評價樹的拓撲結構 221
可使用基於進化距離的函式以評價樹 221
加權簡約法尋找具有突變最少的樹 224
使用簡約法可以採用不同的方式對突變作加權 226
可以使用最大似然法用以評估樹 226
四重奏迷惑 (quartet?puzzling)方法在標準執行中也包括了最大似然法 229
貝葉斯方法也可用於重建系統發生樹 230
8.5 評估樹的特徵和比較樹的可靠性 231
即使是完善的數據和方法也會出現長枝吸引的問題 231
可以檢驗內部分枝測試樹的拓撲結構 231
用於比較兩棵或兩棵以上的樹的檢驗方法233
總結 234
名詞解釋 234
擴展閱讀 235
第4部分 基因組特徵
第9章 揭示基因組特徵 239
9.1 基因組序列的初步分析 240
將整個基因組序列分割開來簡化基因檢測240
結構 RNA基因和重複序列在進一步分析中可以排除 241
同源性可以用於原核和真核基因的鑑定 242
9.2 原核基因組中的基因預測 242
9.3 真核基因組中的基因預測 244
外顯子和內含子的預測程式使用了多種方法244
基因預測必須要保持正確的閱讀框 245
有些程式只利用查詢序列和外顯子模型來預測外顯子 249
有些程式只利用查詢序列和基因模型來預測外顯子 252
可以利用基因模型和序列相似性來預測基因 254
相關物種的基因組可以用來幫助基因預測 255
9.4 剪接位點的預測 256
剪接位點可以由專門的程式獨立地鑑定 256
9.5 啟動子區域的預測 256
原核啟動子有較好定義的基序 257
真核啟動子一般要比原核啟動子複雜 257
有許多啟動子的線上預測工具 257
啟動子預測結果並不十分清晰 258
9.6 證實預測結果 258
有多種計算基因預測準確率的方法 259
翻譯預測的外顯子可以證實預測的準確性 259
構建蛋白質和鑑定同源基因 261
9.7 基因組注釋 262
基因組注釋是基因組分析中的最後一步 262
GO(geneontology)提供了一套基因注釋的標準辭彙表 263
9.8 大基因組比較 267
總結 267
名詞解釋 269
擴展閱讀 269
第10章 基因檢測和基因組注釋理論章節 271
10.1 利用決策樹檢測功能 RNA分子 273
利用tRNAscan算法檢測tRNA基因 273
檢測真核生物基因組中的tRNA基因 276
10.2 原核生物基因檢測中有用的特徵 276
10.3 原核生物基因檢測的算法 279
GeneMark利用了非均勻馬爾可夫鏈(inhomogeneousMarkovchains)和雙密碼子 (dicodon)統計 280
GLIMMER利用了編碼機率的差值馬爾科夫模型 281
ORPHEUS利用了同源性?密碼子統計和核糖體結合位點 282
GeneMark.hmm 利用精確狀態持續隱馬爾可夫模型 283
EcoParse是一個 HMM 基因模型 284
10.4 真核生物基因檢測中用到的特徵 286
真核生物基因與原核生物基因的差異 286
內含子?外顯子和剪下位點 287
轉錄因子的啟動子序列和結合位點 289
10.5 預測真核生物基因信號 289
檢測核心啟動子結合信號是很多真核生物基因預測方法的關鍵元素 289
為了定位核心啟動子序列信號而設計的一類模型 290
利用序列一般性質預測啟動子區域可以去掉相當數量的假陽性結論 294
預測真核生物轉錄和翻譯起始位點 295
轉錄和翻譯終止信號給出基因完整定義 296
10.6 預測外顯子和內含子 296
可以利用普遍序列性質 (generalsequence property)來識別 297
剪下位點預測 298
可以通過序列模式與鹼基統計相結合預測剪下位點 298
GenScan將加權矩陣和決策樹整合以定位剪下位點 299
GeneSplicer利用一階馬爾可夫鏈預測剪下位點 300
NetPlantGene整合內含子和外顯子的神經網路模型以預測剪下位點 300
其他特徵可能也可以用於剪下位點預測 300
利用特定方法識別起始和終止外顯子 301
利用資料庫中的同源區域可以定義外顯子 301
10.7 完整真核生物基因模型 301
10.8 預測獨立基因之餘 304
功能注釋 304
通過比較相關基因組,可以減少難以確定的預測 306
基因檢測方法的評估和再評估 307
總結 307
名詞解釋 308 oxviiio
擴展閱讀 308
第5部分 二級結構
第11章 從序列中獲得二級結構 313
11.1 預測方法的類型 314
基於規則的統計方法使殘基形成一個特定二級結構成為可能 315
最近鄰法是結合了有關蛋白質結構額外信息的統計方法 315
主要利用神經網路及隱馬爾可夫方法進行二級結構預測的機器學習方法 316
11.2 訓練和測試資料庫 317
確定蛋白質二級結構的幾種方法 317
11.3 預測程式準確性評估 318
Q 3 衡量個別殘基分配的精度 318
二級結構的預測不應該期望達到100%的殘基精度 319
Sov值衡量全元素的預測精度 319
CAFASP/CASP:無偏的和隨時可用的蛋白質預測評估 321
11.4 統計和基於知識的方法 321
GOR方法用作資訊理論方法 324
Zpred程式包括了同源序列和殘基保守信息的多重聯配 325
使用多個序列信息提高整體預測精度 328
最近鄰法:使用多個非同源序列 328
PREDATOR是一種綜合了統計和基於知識的程式,其中包括了最近鄰法 328
11.5 二級結構預測的神經網路方法 328
評估神經網路預測的可靠性 329
基於網路的神經網路二級結構預測程式的幾個例子 330
PROF:蛋白質預測 330
PSIPRED 331
Jnet:使用序列比對的幾種可選描述 332
11.6 一些需要特殊預測方法的二級結構 332
跨膜蛋白 334
量化膜環境的屬性 334
11.7 跨膜蛋白結構的預測 334
多螺旋膜蛋白 335
選擇預測跨膜螺旋的預測程式 336
統計方法 339
基於知識的預測 339
蛋白質家族的進化信息改善了預測結果 340
神經網路在跨膜預測中的套用 341
使用隱馬爾可夫模型預測跨膜螺旋 341
比較結果:選擇哪個 342
如果提交一個非跨膜蛋白給跨膜預測程式會發生什麼 344
含β鏈的跨膜結構的預測 344
11.8 捲曲螺旋結構 345
COILS預測程式 346
PAIRCOIL和 MULTICOIL是COILS算法的擴展 348
拉上亮氨酸拉鏈:一個特殊的捲曲螺旋 348
11.9 RNA二級結構預測 349
總結 351
名詞解釋 352
擴展閱讀 353
第12章 二級結構預測 355
12.1 定義二級結構和預測精度 356
蛋白質二級結構指定定義不同給出結果也不同 357
對二級結構的預測精度存在著幾種不同的測度 360
12.2 二級結構預測基於殘基的偏好性 363
每個結構狀態存在著胺基酸的傾向,這可以在指定時作為殘基偏好性 363
最簡單的預測方法是基於在一個序列視窗中的平均殘基偏好性 367
殘基偏好性由附近的序列所調控 368
通過從同源序列得到的信息可以大為改善預測 371
12.3 近鄰方法是基於序列片段的相似性 372
發現相似序列的短片段具有相似的結構 373
使用了幾種序列相似性的測度用以尋找近鄰片段 374
使用近鄰片段結構的加權平均用以預測 376
已發展了近鄰方法用於預測那些較易發生錯誤摺疊的區域 377
12.4 神經網路已經被成功套用於二級結構預測 377
分層前饋神經網路可以將序列轉變為結構預測 378 oxixo
包括同源序列信息將改善神經網路的預測正確度 385
更複雜的神經網路已套用於預測二級結構和其他一些結構特點 386
12.5 隱馬爾可夫模型已套用在結構預測中 389
發現 HMM 方法對膜蛋白特別有效 389
使用 HMM,也可以成功地預測非膜蛋白的二級結構 389
12.6 可以預測結構特徵的一般數據分類技術 392
支持向量機已成功地用於蛋白質結構預測 392
Discriminates?SOM 和其他一些方法 394
總結 394
名詞解釋 395
擴展閱讀 396
第6部分 蛋白質三級結構
第13章 蛋白質結構預測 403
13.1 勢能函式和力場 405
蛋白質的構象可以在勢能面上觀察到 405
構象能量可以用簡單的數學函式來描述 406
相似的力場可以用來表示平均環境中的構象能量 407
勢能函式可以用來評估構建的結構 407
能量最小化可以用來搜尋建模結構和確定局部能量最小值 408
分子動力學和模擬退火可以用來搜尋全局能量最小值 409
13.2 用摺疊識別法預測蛋白質結構 409
在沒有同源蛋白的情況下預測蛋白質結構摺疊 410
非冗餘蛋白質摺疊資料庫在穿線法中的套用 411
穿線法中採用的兩種不同的打分機制 411
動態規劃方法搜尋目標序列與已知摺疊匹配的最佳方案 413
評估摺疊識別可信度的方法 414
穿線法實例:網柱黏菌中的C2結構域 414
13.3 同源建模原理 416
目標序列與模板序列相關性越大,同源建模的結果越好 418
關鍵序列一致性取決於整個序列的長度 418
針對目前可建模的大批量序列的同源建模已經實現自動化 419
建模所基於的一系列假設 420
13.4 同源建模的步驟 421
在PDB資料庫中尋找目標蛋白質的同源結構 422
目標和模板蛋白序列的精確比對對於成功建模是必不可少的 422
蛋白質的結構保守區域最先建模 423
進入下一階段前需檢驗建模的核心結構是否存在不適之處 423
序列重新比對和重新建模可能會提高建模結構的準確性 423
插入和缺失序列通常建模成環區域 424
不等同胺基酸側鏈的建模主要通過旋轉異構體資料庫來實現 426
採用能量最小化來消除結構錯誤 427
分子動力學可以用來搜尋可移動的loop區域可能採取的構象 427
檢查模型的準確性 427
同源建模的可信度 430
13.5 自動化同源建模 430
MODELLER通過適當的蛋白質結構約束條件來建模 431
COMPOSER使用基於片段的建模方法來自動化生成相應的模型 431
網路中可用於比較建模的自動化方法 432
結構預測結果的評價 432
13.6 PI3蛋白激酶p110α的同源建模 434
Swiss?PdbViewer能夠用於手工或者半手工建模 435
同時做序列比對?核心結構建模和側鏈建模 435
柔性區域 (loop)通過資料庫中可能的結構建模 436
Swiss?PdbViewer軟體可以實現能量最小化和質量評估 436
MolIDE是一個可下載的半自動的建模軟體包437
基於網路的自動化建模 (以p110α激酶為例) 437
構建一個功能上相似但是序列不相似的蛋白oxxo質:mTOR 439
從序列生成一個多結構域三維結構 440
總結 440
名詞解釋 440
擴展閱讀 441
第14章 結構 功能關係分析 444
14.1 功能保守性 445
發揮功能的區域通常結構上是保守的 445
相似的生物學功能存在於具有不同摺疊模式的蛋白質上 448
摺疊資料庫確定了結構上相似的蛋白質而無論其功能 448
14.2 結構比較方法 450
找到蛋白質的結構域可以幫助結構比較 450
結構比較能夠揭示序列比較不能辨別的保守功能 451
CE方法通過匹配蛋白質片段把兩個蛋白質疊合到一起 451
向量疊合搜尋工具 (vectoralignmentsearch tool,VAST)能夠疊合二級結構 452
DALI確定蛋白質結構的疊合方式,但是並不保持片段之間的相對順序 453
FATCAT在剛性的片段之間引入了旋轉 454
14.3 找到結合位點 455
高度保守的?帶電荷的或者疏水的表面是相互作用位點的標誌 458
通過表面性質尋找蛋白質 蛋白質的相互作用位點 459
通過計算蛋白質的表面,可以找到那些可能是結合位點的裂縫和洞 459
通過分析胺基酸的保守性可以確定結合位點 462
14.4 分子對接方法和程式 462
當同源蛋白和類似的小分子複合物的結構已知的時候,可以作簡單的分子對接 464
一些專用的分子對接程式可以自動地把配體對接到蛋白質結構上去 464
通過打分函式來確定最可能的對接結果 465
DOCK軟體採用半剛性的方法,通過分析配體和結合位點形狀和化學性質的互補來做對接 465
片段對接方法可以通過預測結合位點處的原子類型和功能基團確定可能的底物 465
GOLD是一個柔性的對接程式,它使用遺傳算法 466
結合位點的水分子也應該考慮 466
總結 467
名詞解釋 467
擴展閱讀 467
第7部分 細胞和組織
第15章 蛋白質譜和基因表達分析 471
15.1 大規模基因表達分析 472
大量不同基因的表達可同時被 DNA晶片檢測 472
基因表達晶片主要用於檢測基因在不同條件下的表達差異 473
基因表達系列分析也被用於研究基因表達的總體模式 474
數字差異顯示:套用生物信息學和統計學來檢測不同組織中基因的差異表達 475
推動不同地方和不同實驗的數據整合 475
分析基因表達微陣列數據的最簡單方法是層次聚類分析 476
基於自組織映射網路的技術可被用於分析微陣列數據 478
自組織樹算法 (SOTA)自上而下地對類別進行連續分割 478
基因表達數據的聚類結果是進一步研究的工具 480
15.2 大規模蛋白質表達分析 480
二維凝膠電泳是分離細胞內各種蛋白質的一種方法 480
檢測二維凝膠中顯示的表達水平 483
二維凝膠能發現不同樣本間的蛋白質表達差異 484
用聚類方法識別具有相似表達模式的蛋白質位點 484
主成分分析 (PCA)是分析微陣列和二維凝膠數據除聚類分析之外的又一選擇 487
跟蹤一組蛋白質位點在一系列樣本間的差異 487
資料庫和線上工具可用來輔助二維凝膠數據的解釋 488
蛋白質微陣列晶片能同時檢測大量不同蛋白質的存在或活性 488
可用質譜來鑑定已經由二維凝膠或其他技oxxio術分離和純化的蛋白質 489
對質譜進行蛋白質鑑定的程式可從網上免費獲得 490
質譜能用於檢測蛋白質濃度 491
總結 491
名詞解釋 491
擴展閱讀 492
第16章 聚類方法和統計學概念 493
16.1 分析表達數據之前的準備工作 494
數據標準化用於去除實驗中的系統誤差 494
表達水平通常用比值表示並取對數轉換後再分析 495
有時在數據轉換後再進行標準化不無裨益497
主成分分析用於合併被分析對象的某些屬性 497
16.2 聚類分析的先決條件是定義所有數據點之間的距離 500
歐氏距離在日常生活中廣泛使用 500
Pearson相關係數表征的距離能衡量表達回響的形狀相似性 501
Mahalanobis距離綜合考慮表達回響之間的變異性和相關性 501
16.3 聚類方法能鑑定出內部相似且彼此間不同的表達模式 502
層次聚類對數據生成一組彼此關聯的備選劃分方案 504
犽均值聚類將數據分成預先指定數目的類群,但不能確定類群間彼此的遠近關係 507
自組織圖 (SOM)採用神經網路算法將數據聚類成預先指定數目的類群 509
進化聚類算法用選擇?重組和突變等概念來搜尋問題的可能最優解 512
自組織樹算法 (SOTA)確定所需要的聚類數目 513
雙向聚類可鑑定出在部分樣本中呈現相似表達模式的一組基因 514
聚類類群的合理性可由其他方法獨立驗證 515
16.4 統計分析可量化觀測到的差異表達的顯著性水平 516
狋檢驗能用於估計兩個表達水平之間差異的顯著性 518
非參數檢驗用於規避對數據採樣方式做假定 519
對差異表達的多重假設檢驗需要採取特殊的技術來控制錯誤率 520
16.5 基因和蛋白質表達數據能用於樣本分類 522
有許多可選手段能用於樣本分類 523
支持向量機是另一種能生成分類器的有監督學習算法 524
總結 524
名詞解釋 525
擴展閱讀 527
第17章 系統生物學 529
17.1 什麼是系統 530
系統大於部分之和 530
生物學系統是有生命的網路 533
資料庫是網路構建的有效起點 533
構建模型需要比網路更加豐富的信息 534
構建模型的三種可行的方法 536
動力學模型並非系統生物學研究的唯一途徑 539
17.2 模型的結構 539
控制環路是生物學系統的必要組成部分 540
網路中的相互作用可以被表述為簡單的微分方程 540
17.3 生物學系統的魯棒性 543
魯棒性是生物體複雜性的一個獨特屬性 543
模組性在魯棒性中扮演重要角色 544
系統中的冗餘性能夠提供魯棒性 546
生命系統可以通過雙穩態開關實現從一個狀態到另一個狀態的轉換 547
17.4 存儲和運行系統模型 547
特定的程式使得系統模擬更加便捷 548
標準化的系統描述有助於存儲和再利用 548
總結 549
名詞解釋 551
擴展閱讀 551
附錄A 553
機率論?熵和信息 553
互斥事件 553
發生兩個事件 553
兩個隨機變數的發生 553
貝葉斯分析 554 貝葉斯定理 554
參數值的推導 554
擴展閱讀 555
附錄B分子能量函式 556
用力場計算分子內部和分子間相互作用的能量 556
成鍵項 557
非成鍵項 558
勢能在穿線法中的使用 559
平均力的勢能 560
與溶劑效應相關的勢能項 560
擴展閱讀 561
附錄C 功能最佳化 562
全搜尋 (full search)方法 562
動態規劃和分支界限法 (branch and bound) 563
局部最優 (localoptimization) 563
下降單純形 (downhillsimplex)法 563
最速下降 (steepestdescent)法 564
共軛梯度 (conjugategradient)法 564
使用二階導數的方法 565
熱力學模擬和全局最佳化 565
蒙特卡羅和遺傳算法 566
分子動力學 568
模擬退火 568
總結 568
擴展閱讀 569
字元表 570
索引 582
彩圖

相關詞條

熱門詞條

聯絡我們