雲端基因組學:內容簡介,圖書目錄,

《雲端基因組學》是2022年中國電力出版社出版的圖書。

基本介紹

中文名：雲端基因組學
出版時間：2022年5月1日
出版社：中國電力出版社
ISBN：9787519864422

內容簡介,圖書目錄,

內容簡介

本書主要內容如下：

·基因組學和計算科學背景知識。

·雲計算操作基礎。

·帶你入門GATK和三個主要GATK最佳實踐流水線。

·用WDL語言編寫工作流，用Cromwell系統管理工作流，實現自動分析。

·用並行技術在雲端大規模執行工作流，降低成本。

·在雲端用Jupyter筆記本做互動分析。

·用Terra平台實現安全協作和計算可復現。

圖書目錄

序 . 1

前言 . 5

第1 章概述 13

1.1 生物學和生命科學大數據的希望和挑戰 . 14

1.2 大數據對基礎設施的挑戰 15

1.3 數據分享和分析雲生態系統 16

1.3.1 雲託管數據和雲計算 . 16

1.3.2 生命科學研究平台 18

1.3.3 基礎設施的標準化和復用 20

1.4 踐行FAIR 理念 22

1.5 小結和下一步學習內容 23

第2 章基因組學簡介：新手必讀 25

2.1 基因組學入門 25

2.1.1 基因作為獨立遺傳單元（從某種程度上講） 26

2.1.2 生物學中心法則：從DNA 到RNA 再到蛋白質 . 29

2.1.3 DNA 突變的起因和後果 31

2.1.4 基因組學是基因組內和基因組間變異的清單 32

2.1.5 大規模系統性分析基因組的難點 33

2.2 基因組變異 . 33

2.2.1 以參考基因組為通用框架 33

2.2.2 變異的物理分類 37

2.2.3 種系變異和體細胞變異的區別 . 42

2.3 生成高通量測序數據 . 45

2.3.1 從生物樣本到大量讀段數據 45

2.3.2 DNA 文庫類型：選擇合適的實驗設計 50

2.4 數據處理和分析 53

2.4.1 將讀段匹配到參考基因組 54

2.4.2 變異識別 56

2.4.3 數據質量和錯誤源 59

2.4.4 規格統一：功能等價流水線 63

2.5 小結和下一步學習內容 64

第3 章生命科學家必備計算技術入門 . 65

3.1 基礎設施的基本組件和性能瓶頸 65

3.1.1 幾種處理器硬體：CPU、GPU、FPGA 和TPU 66

3.1.2 計算組織的層級：核、節點、集群和雲 . 67

3.1.3 解決性能瓶頸 68

3.2 並行計算 72

3.2.1 並行處理一個簡單分析任務 72

3.2.2 從核到集群和云：多層並行機制 73

3.2.3 並行需權衡速度、效率和成本 . 75

3.3 並行和自動化流水線 . 76

3.3.1 工作流語言 . 77

3.3.2 常用基因組流水線語言 78

3.3.3 工作流管理系統 79

3.4 虛擬化和雲 . 79

3.4.1 虛擬機和容器 80

3.4.2 雲簡介 83

3.4.3 採用雲服務從事研究的幾個場景 86

3.5 小結和下一步學習內容 88

第4 章雲上第一步 . 89

4.1 開通谷歌雲賬號並創建首個項目 89

4.1.1 創建項目 90

4.1.2 核對你的結算賬號並激活免費試用額度 . 91

4.2 用Google Cloud Shell 運行基本命令 94

4.2.1 登錄Cloud Shell 虛擬機 94

4.2.2 用gsutil 訪問和管理檔案 96

4.2.3 拉取Docker 鏡像並啟動容器 99

4.2.4 掛載數據卷，從容器內部訪問檔案系統 102

4.3 創建自定義虛擬機 104

4.3.1 創建和配置你的虛擬機實例 104

4.3.2 用SSH 登錄虛擬機 . 111

4.3.3 驗證身份 112

4.3.4 複製本書材料到你的虛擬機 114

4.3.5 在虛擬機上安裝Docker 115

4.3.6 構建GATK 容器鏡像 . 116

4.3.7 停用虛擬機，停止燒錢 . 118

4.4 配置IGV 瀏覽器，讀取GCS 桶數據 . 119

4.5 小結和下一步學習內容 . 124

第5 章 GATK 入門 125

5.1 開始用GATK . 125

5.1.1 運行要求 126

5.1.2 命令行句法 127

5.1.3 用Spark 實現多執行緒 128

5.1.4 GATK 實操 131

5.2 動手找變異 136

5.2.1 用HaplotypeCaller 尋找種系SNP 和InDel 136

5.2.2 根據變異上下文注釋過濾變異識別結果 146

5.3 GATK 最佳實踐簡介 154

5.3.1 本書涵蓋的最佳實踐 156

5.3.2 其他主要套用場景 156

5.4 小結和下一步學習內容 . 157

第6 章用GATK 最佳實踐發現種系短變異 . 159

6.1 數據預處理 159

6.1.1 將讀段匹配到基因組參考 161

6.1.2 標記重複讀段 . 163

6.1.3 重新校正鹼基質量值 165

6.2 聯合發現分析 . 167

6.2.1 聯合變異識別工作流概覽 167

6.2.2 識別每個樣本的變異，生成GVCF 檔案 . 172

6.2.3 整合GVCF 檔案 174

6.2.4 用聯合鑑定基因型方法處理多個樣本 176

6.2.5 重校正變異質量值，過濾聯合識別結果集 . 178

6.2.6 改進基因型分配結果並調整其可信度 183

6.2.7 下一步和延伸閱讀 184

6.3 用CNN 過濾法識別單樣本變異 185

6.3.1 CNN 單樣本工作流概覽 187

6.3.2 採用1D CNN 過濾單樣本WGS 變異識別結果集 188

6.3.3 採用2D CNN 在模型中加入讀段數據 . 190

6.4 小結和下一步學習內容 . 193

第7 章用GATK 最佳實踐發現體細胞變異 . 195

7.1 癌症基因組研究面對的挑戰 195

7.2 體細胞短變異（SNV 和InDel） 197

7.2.1 腫瘤—正常組織配對分析工作流概覽 198

7.2.2 創建Mutect2 PoN 佇列 . 199

7.2.3 在腫瘤—正常組織配對上運行Mutect2 工具 . 202

7.2.4 估計樣本交叉污染 203

7.2.5 過濾Mutect2 識別結果 205

7.2.6 用Funcotator 工具註明識別結果的功能性預測效果 208

7.3 體細胞拷貝數變異 210

7.3.1 僅有腫瘤樣本的分析工作流概覽 . 211

7.3.2 創建體細胞CNA PoN 215

7.3.3 去噪 . 215

7.3.4 連線片段並識別CNA . 217

7.3.5 附加分析方法 . 220

7.4 小結和下一步學習內容 . 221

第8 章用工作流自動執行分析任務 223

8.1 WDL 和Cromwell 系統簡介 223

8.2 安裝和配置Cromwell 系統 . 226

8.3 你的第一個WDL 工作流：Hello World 230

8.3.1 編寫最小示例，學習WDL 基本句法 . 231

8.3.2 在你的谷歌虛擬機上用Cromwell 系統運行簡單WDL 腳本 233

8.3.3 解釋Cromwell 輸出日誌的要點 234

8.3.4 加個變數並以JSON 格式提供輸入 . 237

8.3.5 增加另一任務，完善工作流 239

8.4 你的第一個GATK 工作流：Hello HaplotypeCaller 241

8.4.1 探索WDL 工作流 242

8.4.2 生成JSON 輸入檔案 246

8.4.3 運行工作流 247

8.4.4 破壞工作流，學習句法檢查和錯誤提示功能 . 249

8.5 介紹分散—聚集並行機制 . 253

8.5.1 探索WDL 工作流 254

8.5.2 生成圖表，實現可視化 . 260

8.6 小結和下一步學習內容 . 262

第9 章真實基因組工作流詳解 263

9.1 神秘工作流1：加入條件語句，提高靈活性 263

9.1.1 工作流製圖 264

9.1.2 逆向破解條件切換 269

9.2 神秘工作流2：模組化和代碼重用 276

9.2.1 工作流製圖 276

9.2.2 拆解套娃 281

9.3 小結和下一步學習內容 . 288

第10 章用Pipelines API 運行多個工作流 . 289

10.1 GCP 平台PAPI 服務簡介 289

10.2 直接傳送Cromwell 作業到PAPI 292

10.2.1 配置Cromwell，實現與PAPI 通信 292

10.2.2 用PAPI 並行運行 HaplotypeCaller 工具 296

10.2.3 在Google Compute Engine 監控工作流執行 298

10.3 理解和最佳化工作流的效率 302

10.3.1 操作粒度 . 302

10.3.2 權衡時間和金錢 . 303

10.3.3 成本最佳化建議 305

10.3.4 針對平台最佳化和可移植性 307

10.4 用WDL Runner 封裝Cromwell 和PAPI 的執行 308

10.4.1 WDL Runner 設定 309

10.4.2 用WDL Runner 並行運行HaplotypeCaller 工具 310

10.4.3 監控WDL Runner 的執行 . 311

10.5 小結和下一步學習內容 314

第11 章在Terra 平台快捷運行多個工作流 317

11.1 Terra 入門 317

11.1.1 生成賬號 . 318

11.1.2 創建結算項目 320

11.1.3 克隆預先配好的工作區 323

11.2 在Terra 平台用Cromwell 伺服器運行工作流 . 324

11.2.1 在單個樣本上運行工作流 324

11.2.2 在數據表的多個樣本上運行工作流 327

11.2.3 監控工作流執行 333

11.2.4 在數據表定位工作流輸出 337

11.2.5 再次運行同一工作流，展示快取調用 . 339

11.3 運行一個真實、全規模GATK 最佳實踐流水線 . 341

11.3.1 尋找和克隆GATK 種系短變異發現最佳實踐工作區 342

11.3.2 檢查預載入數據 342

11.3.3 選數據並配置全規模工作流 . 344

11.3.4 啟動全規模工作流並監控其執行 345

11.3.5 下載輸出數據的幾種方法，或不下載 . 348

11.4 小結和下一步學習內容 349

第12 章 Jupyter Notebooks 中的互動式分析 351

12.1 Terra 平台Jupyter 服務簡介 . 352

12.1.1 Jupyter Notebooks 概述 352

12.1.2 Jupyter Notebooks 在Terra 平台的工作原理 354

12.2 開始用Terra 平台的Jupyter 軟體 360

12.2.1 檢查和自定義筆記本運行環境的配置項 360

12.2.2 以編輯模式打開筆記本並檢查核心 366

12.2.3 運行Hello World 單元格 367

12.2.4 用gsutil 工具操作谷歌雲存儲桶 370

12.2.5 聲明變數，指向本書數據桶的種係數據 371

12.2.6 設定沙盒並將輸出檔案存入工作區數據桶 372

12.3 在嵌入式IGV 瀏覽器視窗查看基因組數據 . 373

12.3.1 設定嵌入式IGV 瀏覽器 . 374

12.3.2 為IGV 瀏覽器添加數據 . 375

12.3.3 設定訪問令牌，查看私有數據 377

12.4 運行GATK 命令，學習、測試或解決問題 378

12.4.1 運行GATK 基本命令：HaplotypeCaller 379

12.4.2 載入數據（BAM 和VCF）到IGV 瀏覽器 380

12.4.3 在嵌入式IGV 瀏覽器解決一個有問題的變異識別結果 . 382

12.5 可視化變異上下文注釋數據 . 385

12.5.1 用VariantsToTable 導出感興趣的注釋值 385

12.5.2 載入R 腳本，繪製函式圖像 386

12.5.3 用makeDensityPlot 繪製QUAL 值密度圖 387

12.5.4 繪製QUAL 和DP 值散點圖 . 389

12.5.5 繪製附有邊緣密度的散點圖 . 390

12.6 小結和下一步學習內容 392

第13 章在Terra 平台自己組裝工作區 . 393

13.1 管理工作區內外數據 393

13.1.1 以工作區桶為數據倉庫 394

13.1.2 訪問你在Terra 平台外部管理的私有數據 . 394

13.1.3 訪問Terra Data Library 數據 397

13.2 用基本組件重建教程工作區 . 398

13.2.1 新建工作區 398

13.2.2 添加工作流到Methods Repository 並將其導入工作區 400

13.2.3 用JSON 檔案快速創建配置 . 402

13.2.4 添加數據表 403

13.2.5 填充工作區資源數據表 406

13.2.6 用數據表創建工作流配置 406

13.2.7 添加筆記本並檢查運行環境 . 408

13.2.8 編寫工作區文檔並分享它 409

13.3 從GATK 最佳實踐工作區開始 410

13.3.1 克隆GATK 最佳實踐工作區 411

13.3.2 檢查GATK 工作區數據表，理解數據組織方式 411

13.3.3 了解千人基因組高覆蓋度數據集 414

13.3.4 從千人基因組工作區複製數據表 416

13.3.5 用TSV 載入檔案從千人基因組工作區導入數據 417

13.3.6 對聯合數據集執行聯合識別分析 419

13.4 圍繞數據集，建工作區 425

13.4.1 克隆千人基因組數據工作區 . 426

13.4.2 從Dockstore 導入工作流 426

13.4.3 配置工作流，使用數據表 429

13.5 小結和下一步學習內容 430

第14 章撰寫可完全復現的論文 . 433

14.1 案例研究概覽 433

14.1.1 計算可復現和FAIR 框架 434

14.1.2 案例研究的原始研究成果和歷史 436

14.1.3 評估可用信息和關鍵挑戰 437

14.1.4 設計可復現的實現 . 439

14.2 生成合成數據集，替代私有數據 441

14.2.1 總體方法論 442

14.2.2 從千人基因組受試檢索變異數據 444

14.2.3 根據真人數據，仿造外顯子組數組 445

14.2.4 改變仿造外顯子組 . 449

14.2.5 生成最終數據集 . 452

14.3 重建數據處理和分析方法論 . 452

14.3.1 匹配和變異發現 . 453

14.3.2 變異效果預測、排序和變異負荷分析 . 455

14.3.3 新實現的分析能力 . 456

14.4 通往FAIR 的道路漫長又曲折 . 457

14.5 總結 459

附錄術語表 . 461

雲端基因組學

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條