基本介紹
內容簡介,目錄,
內容簡介
生物信息學是一門新興的交叉學科。在該領域中,由生物學家和計算機科學家共同研究生物分子信息的獲取、管理、分析和利用。生物信息學以計算機、網路為工具,用數學和信息科學的理論、方法和技術去研究生物大分子,研究生物分子信息組織的規律。本書緊緊圍繞基因組與後基因組研究,闡述生物信息學的方法、技術、資源及其核心算法,介紹各種信息學方法和技術在生物信息學中的套用。本書首先簡要說明生物信息學的研究對象及主要研究內容;然後介紹基本的序列比較算法,介紹各種生物信息學數據資源及主要資料庫;接下來以專題形式介紹基因組信息分析、分子系統發生分析及蛋白質結構預測;最後,介紹基因表達數據分析。為了便於計算機和數學研究人員進入生物信息學研究領域,本書還特別介紹了與生物信息學有關的基本分子生物學知識。
本書可以作為高年級大學生或研究生的生物信息學課程教材,也可以作為生命科學工作者、計算機套用人員的參考書。
目錄
第1章生物信息學引論……………………………………………………………………1
1.1 引言………………………………………………………………………………1
1.1.1生物信息學概念………………………………………………………1
1.1.2生物分子信息……………………………………………………………2
1.1.3生物信息學的研究目標和任務…………………………………………4
1.1.4生物信息學的研究意義…………………………………………………6
1.2生物信息學的發展歷史…………………………………………………………7
1.3人類基因組計畫和基因組信息學………………………………………………9
1.3.1人類基因組計畫簡介……………………………………………………9
1.3.2人類基因組計畫對生物信息學的挑戰………………………………13
1.4蛋白質結構與功能關係的研究…………………………………………………16
1.5生物信息學的主要研究內容……………………………………………………18
1.5.1 生物分子數據的收集與管理………………………………………18
1.5.2資料庫搜尋及序列比較………………………………………………19
1.5.3基因組序列分析………………………………………………………20
1.5.4基因表達數據的分析與處理……………………………………21
1.5.5蛋白質結構預測………………………………………………………21
1.6生物信息學所用的方法和技術………………………………………………23
1.6.1數學統計方法…………………………………………………………23
1.6.2動態規劃方法…………………………………………………………23
1.6.3機器學習與模式識別技術……………………………………………24
1.6.4資料庫技術及數據挖掘………………………………………………25
1.6.5人工神經網路技術……………………………………………………26
1.6.6專家系統……………………………………………………………27
1.6.7分子模型化技術……………………………………………………28
1.6.8量子力學和分子力學計算…………………………………………29
1.6.9生物分子的計算機模擬…………………………………………29
1.6.10 特網(Internet)技術………………………………………………31
1.7生物信息學目前的發展概況……………………………………………………31
問題與練習……………………………………………………………………………35
參考文獻……………………………………………………………………………35
第2章生物信息學的生物學基礎………………………………………………………40
2.1細胞………………………………………………………………………………40
2.2蛋白質的結構和功能……………………………………………………………42
2.2.1蛋白質的功能…………………………………………………………42
2.2.2蛋白質的分子組成……………………………………………………43
2.2.3蛋白質的結構層次………………………………………………44
2.2.4蛋白質結構與功能的關係……………………………………………50
2.3 遺傳信息載體一DNA………………………………………………………51
2.3.1核苷酸………………………………………………………………52
2.3.2 DNA的結構………………………………………………………53
2.4分子生物學中心法則……………………………………………………………55
2.4.1 DNA的複製……………………………………………………………55
2.4.2轉錄……………………………………………………………………56
2.4.3翻譯…………………………………………………………………57
2.4.4 mRNA的反轉錄與cDNA……………………………………………59
2.4.5對遺傳信息流的再認識…………………………………………60
2.5基因組結構………………………………………………………………………60
2.5.1染色體結構…………………………………………………………60
2.5.2基因…………………………………………………………………62
2.5.3原核生物基因組…………………………………………………63
2.5.4真核生物基因組………………………………………………………64
2.6基因表達調控…………………………………………………………………69
2.6.1基因表達調控的層次……………………………69
2.6.2原核基因調控…………………………………………………………70
2.6.3真核基因調控…………………………………………………………70
2.7新生肽鏈的摺疊…………………………………………………………………71
2.7.1新生肽鏈的加工……………………………………………………72
2.7.2新生肽鏈的摺疊………………………………………………………72
2.7.3蛋白質摺疊的一般規律……………………………………………72
2.7.4幫助新生肽鏈摺疊的生物大分子……………………………………73
2.7.5蛋白質構象病問題……………………………………………………74
2.8生物大分子結構的測定……………………………………………74
2.8.1 X射線衍射結構分析……………………….…………………………74
2.8.2核磁共振結構分析…………………………………………………76
2.9分子生物學工具……………………………77
問題與練習…………………………………………………79
參考文獻………………………………………………………………………………79
第3章序列比較…………………………………………………………………………81
3.1序列的相似性……………………………………………………………………81
3.1.1字母表和序列…………………………………………………………82
3.1.2 編輯距離……………………………………………………………83
3.1.3通過點矩陣分析兩條序列的相似之處………………………………84
3.1.4 序列的兩兩比對…………………………………………………86
3.1.5用於序列相似性的打分矩陣…………………………………………87
3.2兩兩比對算法……………………………………………………………………92
3.2.1序列兩兩比對基本算法………………………………………………93
3.2.2子序列與完整序列的比對……………………………………………96
3.2.3尋找最大的相似子序列………………………………………………97
3.2.4準全局序列比對………………………………………………………98
3.2.5關於連續空位的問題…………………………………………………99
3.2.6比較相似序列…………………………………………………………102
3.2.7 比對的統計學顯著性…………………………………………………103
3.3序列多重比對…………………………………………104
3.3.1 SP模型………………………………………………………………105
3.3.2多重比對的動態規划算法……………………………………………107
3.3.3最佳化計算方法……………………………110
3.3.4星形比對………………………………………………………………112
3.3.5樹形比對……………………………………………………………114
3.3.6其他多重序列比對算法………………………………………………115
3.3.7統計特徵分析……………………………………………………115
3.4 DNA片段組裝………………………………………………………………116
3.4.1片段組裝問題………………………………………………………117
3.4.2序列片段組裝模型……………………………………………………119
3.4.3序列片段覆蓋圖………………………………………………………121
3.4.4貪婪算法………………………………………………………………123
3.4.5非循環圖拓撲排序法…………………………………………………124
問題與練習……………………………………………………………………125
參考文獻…………………………………………………126
第4章生物分子資料庫…………………………………………………………………130
4.1 引言……………………………………………………………………………130
4.2核酸序列資料庫………………………………………………………………131
4.2.1 GenBank/EMBL-Bank/DDBJ …………………………………131
4.2.2基因組資料庫…………………………………………………………136
4.2.3表達序列標記資料庫dbEST………………………………………137
4.2.4序列標記位點資料庫dbSTS………………………………………138
4.2.5面向基因聚類資料庫UniGene……………………………………138
4.3蛋白質序列資料庫…………………………………………………………138
4.3.1 PIR……………………………………………………………………138
4.3.2 SWISS—PROT………………………………………………………140
4.3.3 TrEMBL…………………………………………………………141
4.4生物大分子結構資料庫………………………………………………………142
4.4.1 PDB …………………………………………………………………142
4.4.2 MMDB………………………………………………………………142
4.5其他生物分子資料庫…………………………………………………………143
4.5.1單鹼基多態性資料庫dbSNP………………………………………144
4.5.2蛋白質結構分類資料庫SCOP……………………………………144
4.5.3蛋白質二級結構資料庫DSSP………………………………………145
4.5.4蛋白質同源序列比對資料庫HSSP ………………………………146
4.5.5 序列模式資料庫PROSITE……………………………………147
4.5.6 蛋白質指紋資料庫PRINTS ………………………………………147
4.5.7人類遺傳資料庫OMIM……………………………………………147
4.5.8 基因啟動子資料庫EPD……………………………………………148
4.5.9轉錄調控區域資料庫TRRD………………………………………148
4.5.10 轉錄因子資料庫TRANSFAC……………………………………149
4.5.11基因本體資料庫GO………………………………………………149
4.5.12 生物、醫學文獻資料庫PubMed ………………………………149
4.5.13 目錄資料庫DBCat………………………………………………149
4.6資料庫搜尋……………………………………………………………………150
4.6.1 FastA…………………………………………………………………151
4.6.2 BLAST………………………………………………………………154
4.6.3 VAST ………………………………………………………………158
4.7資料庫集成……………………………………………………………………159
4.7.1 Entrez ………………………………………………………………160
4.7.2 SRS…………………………………………………………………161
4.7.3 ExPASy………………………………………………………………162
問題與練習……………………………………………………………………………162
參考文獻………………………………………………………………………………163
第5章基因組信息分析…………………………………………………………………168
5.1關於遺傳語言……………………………………………………………168
5.1.1 基因組DNA的奧秘…………………………………………………168
5.1.2探索遺傳語言…………………………………………………………171
5.1.3關於生物複雜性………………………………………………………172
5.1.4基因組學研究帶來的希望…………………………………………172
5.2原核基因組特點………………………………………………………………173
5.2.1長開放閱讀框…………………………………………………………173
5.2.2高基因密度……………………………………………………………173
5.2.3簡單的基因結構………………………………………………………173
5.2.4原核基因組中的GC含量……………………………………………174
5.3真核基因組特點………………………………………………………………174
5.3.1基因組規模……………………………………………………………174
5.3.2 巨大的非編碼序列……………………………………………………174
5.3.3複雜的基因結構………………………………………………………174
5.3.4複雜的基因轉錄調控方式……………………………………………175
5.3.5可變剪接………………………………………………………………175
5.3.6 CpG島………………………………………………………………176
5.3.7等值區……………………………………………………………176
5.3.8密碼子使用偏性………………………………………………………177
5.4基因組序列分析………………………………………………………………177
5.4.1基因組序列分析步驟和分析結果評價………………………………177
5.4.2核苷酸關聯分析……………………………………………………179
5.5基因識別方法…………………………………………………………………181
5.5.1 最長ORFs法……………………………………………………181
5.5.2基於密碼子出現頻率的預測方法……………………………………182
5.5.3同源性方法……………………………………………………………184
5.5.4神經網路方法…………………………………………………………185
5.5.5隱馬爾可夫模型法……………………………………………………186
5.5.6模式判別分析法………………………………………………….…..198
5.5.7基於動態規劃的基因結構預測方法…………………………………199
5.5.8基於剪下比對的基因識別……………………………………………202
5.5.9其他基因識別方法……………………………………………………202
5.6非編碼區域分析和調控元件識別……………………………………………203
5.6.1調控元件的建模………………………………………………………204
5.6.2調控元件模式的得分函式……………………………………………206
5.6.3模式驅動的調控元件識別……………………………………………207
5.6.4序列驅動的調控元件識別……………………………………………208
問題與練習…………………………………………215
參考文獻…………………………………………………215
第6章系統發生分析……………………………………………………………………219
6.1分子系統發生與系統發生樹……………………………………………219
6.1.1 分子系統發生分析………………………219
6.1.2系統發生樹…………………………………221
6.1.3距離和特徵………………………………………222
6.1.4分子系統發生分析過程……………………………………223
6.2基於距離的系統發生樹構建方法…………………………………………225
6.2.1最小二乘法………………………………………………………225
6.2.2連鎖聚類方法及非加權分組平均法……………………………226
6.2.3 距離變換法…………………………………一…………….………229
6.2.4鄰近歸併法…………………………………….230
6.3基於特徵的系統發生樹構建方法……………………….………………232
6.3.1最大簡約法………………………………….232
6.3.2快速搜尋策略…………………………………235
6.4最大似然法…………………………………………236
6。5系統發生樹的可靠性…………………………………………………………238
6.5.1 自舉檢驗……………………………….238
6.5.2參數檢驗………………………………………………………………239
6.6全基因組系統發生分析…………………….239
6.6.1基於多棵系統發生樹的方法…………………………………………239
6.6.2基於基因內容的方法……………………………240
6.6。3基於蛋白質摺疊結構的方法……………………………..………….240
6.6.4基於基因次序的方法……………………………240
6.6.5基於連線的直向同源蛋白的方法……………….…………………240
6.6.6基於代謝途徑的方法…………………241
問題與練習…………242
參考文獻……………………………………243
第7章蛋白質結構預測…………………………………………………………………245
7.1 引言………………………………………………………………………245
7.2蛋白質二級結構預測………………………………………………………249
7.2.1利用的信息及預測準確性…………………………………………249
7.2.2 Chou—Fasman方法 ……………………………………………250
7.2.3 GOR方法………………………………252
7.2.4基於胺基酸疏水性的預測方法………………………………………255
7.2.5最鄰近方法……………………………………………………………257
7.2.6人工神經網路方法…………………………………………………258
7.2.7綜合方法………………………………………………………………261
7.2.8胺基酸殘基之間的距離…………………………………………261
7.3 RNA二級結構的預測…………………………………………………………262
7.4蛋白質空間結構預測………………………………………………………263
7.4.1同源模型化方法………………………………………………………264
7.4.2線索化方法(摺疊識別方法)…………………………………………266
7.4.3從頭預測方法…………………………………………………………267
7.4.4預測方法評價…………………………………………………………272
7.5蛋白質空間結構比較…………………………………………………………273
問題與練習……………………………………………………………………………275
參考文獻………………………………………………………………………………276
第8章基因表達數據分析………………………………………………………………282
8.1基因表達數據的獲取…………………………………………………………283
8.1.1 cDNA微陣列…………………………………………………………283
8.1.2寡核苷酸晶片…………………………………………………………284
8.1.3基因表達數據的網路資源……………………………………………285
8.2基因表達數據預處理…………………………………………………………286
8.3基因表達差異的顯著性分析…………………………………………………289
8.3.1倍數分析………………………………………………………………289
8.3.2 t檢驗…………………………………………………………………29C
8.3.3貝葉斯分析……………………………………………………………291
8.4基因表達譜聚類分析…………………………………………………………292
8.4.1相似性度量函式………………………………………………………292
8.4.2聚類方法………………………………………………………………294
8.4.3基於模型的聚類方法…………………………………………………298
8.4.4支持向量機……………………………………………………………299
8.4.5聚類結果的可視化……………………………………………………301
8.4.6聚類結果的定量評價…………………………………………………303
8.5基因表達數據的分類分析……………………………………………………305
8.5.1樸素貝葉斯分類法……………………………………………………305
8.5.2忌一近鄰法………………………………………………………………306
8.5.3其他分類法……………………………………………………………306
8.6 主成分分析PCA ……………………………………………………………307
8.7基於基因表達譜的基因調控網路研究………………………………………309
8.7.1布爾網路模型…………………………………………………………310
8.7.2線性組合模型…………………………………………………………312
8.7.3加權矩陣模型…………………………………………………………312
8.7.4數據整合分析…………………………………………………………313
問題與練習……………………………………………………………………………314
參考文獻………………………………………………………………………………314
附錄1 常用基本辭彙表…………………………………………………………………320
附錄2生物信息分析工具808………………………………………………………333