《生物信息學分析與實踐——MATLAB生物信息學工具箱套用》是2018年1月電子工業出版社出版的圖書,作者是劉偉、孫志強、楊森。
基本介紹
- 書名:生物信息學分析與實踐——MATLAB生物信息學工具箱套用
- 作者:劉偉
孫志強
楊森 - 出版社:電子工業出版社
- 出版時間:2018年1月
- 頁數:308 頁
- 定價:59 元
- 開本:16 開
- ISBN:9787121333743
內容簡介,圖書目錄,
內容簡介
本書是生物信息學分析和研究的實踐指導,精選生物信息學分析中的重要案例,結合作者多年教學實踐,藉助MATLAB生物信息學工具箱,進行序列數據分析、晶片數據分析、高通量測序和質譜數據分析等,包括常規的序列葛夜影比對和統計分析,直接訪問網悼拔櫻鞏絡資料庫和本地資料庫,以騙趨及進行RNA結構預測和多種圖形的可視化等。本書從底層開始進行生物學數據常規分析,直觀地演示各種組盛盛函式的使用方法和分析結果兵頁府。
圖書目錄
目 錄
第1章 序列分析
1.1 計算和可視化序列統計特性
1.1.1 人類線粒體基因組
1.1.2 計算序列統計特性
1.1.3 考察開放閱讀框(ORF)
1.1.4 考察注釋特徵
1.1.5 提取和分析ND2和COX1蛋白
1.1.6 計算人類線粒體基因組中所有基因的密碼子使用頻率
1.2 兩兩序列比對
1.2.1 序列比對介紹
1.2.2 查找序列信息
1.2.3 確定蛋白質編碼序列
1.2.4 比較胺基酸序列
1.2.5 序列比對結果分析
1.3 評估比對的統計學顯著性
1.3.1 從MATLAB空間中獲取NCBI數據
1.3.2 初步比對和全局比對
1.3.3 評估打分的顯著性
1.3.4 打分不具有統計學顯著性的例子
1.3.5 局部比對和隨機序列
1.4 全基因組比對
1.4.1 提取基因組信息
1.4.2 基因比對
1.4.3 考察分數的含義
1.4.4 利用稀疏矩陣減少存儲量
1.4.5 查看同源基因
1.5 分析同義和非同義替換
1.5.1 介紹
1.5.2 提取HIV-1基因組的兩個序列信息
1.5.3 計算HIV-1基因的Ka/Ks比值
1.5.4 利用滑動視窗計算Ka/Ks比值
1.5.5 GAG、POL和ENV基因的滑動視窗鞏店驗閥分析
1.5.6 分析GP120的Ka/Ks比值和表位
1.6 追蹤禽流感病毒
1.6.1 禽流感病毒介紹
1.6.2 計算每個H5N1基因的Ka/Ks比值
1.6.3 針對HA蛋白質進行系統發育分析
1.6.4 利用多維變尺度可視化序列距離
1.6.5 在非洲和亞洲地圖上展示H5N1病毒的地理區域
1.6.6 利用谷歌地圖觀察地良坑樂理區域
1.6.7 在谷歌地圖中查看檔案
參考文獻
第2章 高通量測序
2.1 分析Illumina/Solexa下一代測序數據
2.1.1 簡介
2.1.2 讀取_sequence.txt(FASTQ)檔案
2.1.3 考察序列讀數的長度分布
2.1.4 考察序列片段的鹼基組成
2.1.5 考察質量打分分布
2.1.6 在標準之間轉換質量打分
2.1.7 根據質量打分進行過濾和去除
2.1.8 統計讀數出現概況
2.1.9 識別人造的均聚物
2.2 識別RNA-seq數據中差異表達的基因
2.2.1 RNA-seq技術介紹
2.2.2 前列腺癌症數據集
2.2.3 為目標基因建立一個注釋對象
2.2.4 輸入匹配的短讀數匹配數據
2.2.5 確定數位化基因表達
2.2.6 推斷RNA表達的差異信號
2.2.7 估計文庫規模因子
2.2.8 估計基因豐度
2.2.9 估計負二項式分布參數
2.2.10 經驗累計分布函式
2.2.11 測試差異表達
2.3 分析人類末端腸道微生物
2.3.1 人類末端腸道菌群簡介
2.3.2 成人遠端腸道微生物分類剖析
2.3.3 結合分類分布和基本分類
2.3.4 基於KEGG類進行功能對比分析
2.3.5 基於COG分類進行功能對比分析
2.3.6 基於功能表示集中微生物
2.4 分析馬尾藻樣本的宏基因組
2.4.1 簡介
2.4.2 讀取BLAST命中報告
2.4.3 過濾BLAST命中次數
2.4.4 記憶體匹配的分類學數據檔案
2.4.5 用分類學信息注釋BLAST報告
2.4.6 根據學名為BLAST命中分類
2.4.7 保存注釋的BLAST報告
2.4.8 確定BLAST命中次數的分類學分布
2.4.9 濾除孤立分配
2.4.10 繪製BLAST命中的分類學分布
2.4.11 將分析局限至每個查詢的最佳命中
2.4.12 分類節點信息的記憶體映射
2.4.13 根據更高的分類學目劃分BLAST命中
2.4.14 以圖的形式表示分類學分布
2.5 研究基因組規模的DNA甲基化譜差異
2.5.1 簡介
2.5.2 數據集
2.5.3 為BAM格式檔案創建MATLAB接口
2.5.4 關聯CpG島和DNA甲基化
2.5.5 序列數據的統計建模
2.5.6 識別顯著的甲基化區域
2.5.7 尋找具有顯著甲基化啟動子區域的基因
2.5.8 尋找顯著甲基化的基因內部區域
2.5.9 甲基化模式的差異分析
參考文獻
第3章 晶片數據分析
3.1 晶片數據可視化
3.1.1 考察微陣列數據
3.1.2 微陣列數據的空間圖
3.1.3 微陣列的統計參數
3.1.4 微陣列數據的散點圖
3.2 分析Affymetrix晶片數據
3.2.1 關於Affymetrix數據檔案
3.2.2 顯示圖像檔案
3.2.3 基因名稱和探針集ID
3.3 分析晶片數據並識別差異表達的基因
3.3.1 晶片數據集簡介
3.3.2 下載表達數據
3.3.3 過濾表達數據
3.3.4 識別差異的基因表達
3.3.5 採用基因本體注釋上調基因
3.3.6 尋找通路中的差異表達基因
3.4 通過分析Affymetrix SNP晶片研究DNA副本數變化
3.4.1 簡介
3.4.2 數據集
3.4.3 獲取SNP晶片的探針水平數據
3.4.4 輸入和轉換數據集
3.4.5 探針強度標準化
3.4.6 探針水平的概要
3.4.7 獲取SNP探針信息
3.4.8 原始拷貝數估計
3.4.9 過濾和排序
3.4.10 PCR片段長度標準化
3.4.11 CN基因譜
3.4.12 SCLS樣本的8q擴增
3.4.13 CN獲得/缺失匯總圖
3.5 晶片數據的基因本體富集分析
3.5.1 簡介
3.5.2 基因本體功能舉例
3.5.3 通過聚類分析篩選一組感興趣的基因子集
3.5.4 獲取酵母基因組資料庫中的注釋基因
3.5.5 基因晶片中被注釋的基因數目
3.5.6 觀察GO注釋的出現機率
3.5.7 最顯著條目的進一步分析
參考文獻
第4章 質譜數據分析
4.1 原始質譜數據的預處理
4.1.1 下載數據
4.1.2 譜的重採樣
4.1.3 基線校正
4.1.4 譜排列
4.1.5 譜圖示準化
4.1.6 去除峰噪聲
4.1.7 採用波形降噪方法尋找峰值
4.1.8 分段:用層次聚類合併譜峰
4.1.9 動態規劃分割
4.2 採用順序和並行計算實現譜的批量處理
4.2.1 簡介
4.2.2 設定數據倉庫
4.2.3 順序分批處理
4.2.4 基於多核計算機的並行批處理
4.2.5 基於分布計算的並行批處理
4.2.6 異步並行處理
4.2.7 後期處理
4.3 顯著性特徵識別以及蛋白質譜分類
4.3.1 簡介
4.3.2 樣本可視化
4.3.3 關鍵特徵排序
4.3.4 基於線性判別分析的盲分類
4.3.5 利用PCA/LDA進行數據降維
4.3.6 特徵選擇子集的隨機搜尋
4.3.7 利用評估集來評估選擇特徵的質量
4.3.8 可替換的統計學習方法
4.4 採用遺傳算法尋找質譜數據特徵
4.4.1 簡介
4.4.2 導入本地質譜數據到MATLAB
4.4.3 建立遺傳算法的適應度函式
4.4.4 建立初始種群
4.4.5 設定遺傳算法選項
4.4.6 運行GA尋找20個具有可判別性的特徵
4.4.7 顯示具有判別性的特徵
參考文獻
第5章 可視化工具
5.1 聚類結果可視化
5.1.1 數據導入
5.1.2 聚類
5.1.3 查看和更改聚類選項
5.1.4 數據集的行列聚類
5.1.5 對熱圖的操作
5.1.6 作業系統樹
5.1.7 改變配色方案和顯示範圍
5.1.8 5000個顯著基因的聚類
5.2 分子三維結構的可視化
5.2.1 泛素結構介紹
5.2.2 泛素分子顯示
5.2.3 對分子進行旋轉和放大
5.2.4 評估結構中的胺基酸電荷分布
5.2.5 研究結構的疏水性譜
5.2.6 測量原子距離
5.2.7 展示和標註泛素結構中的賴氨酸殘基
5.2.8 檢查泛素中的異肽鍵
5.2.9 泛素比對和SUMO序列
5.2.10 將泛素和SUMO的結構疊加
5.3 相互作用數據可視化
5.3.1 將進化樹表示為圖
5.3.2 改變BIOGRAGH對象的屬性
5.3.3 繪製自定義節點
5.4 圖論函式
5.4.1 從SimBiology模型創建一個圖
5.4.2 可視化圖
5.4.3 使用圖論函式
5.4.4 尋找節點pA與pC之間的最短路徑
5.4.5 遍歷圖
5.4.6 尋找圖中的連通部分
5.4.7 模擬移除一個反應
參考文獻
第6章 外部資料庫和程式調用
6.1 連線本地資料庫
6.1.1 檢查資料庫工具箱
6.1.2 為原始資料庫建立一個備份
6.1.3 為MATLAB配置資料庫
6.1.4 連線到資料庫
6.1.5 獲取資料庫信息
6.1.6 從GenBank收集序列數據並插入資料庫
6.1.7 核對導入數據的序列
6.1.8 更新資料庫中的數據
6.1.9 為資料庫添加比對信息
6.1.10 檢索比對
6.1.11 為數據增加BLAST報表信息
6.1.12 對序列進行BLAST搜尋
6.1.13 使用可視化的查詢構建器將信息導入MATLAB
6.2 連線KEGG的API網路伺服器
6.2.1 利用信息操作來展示通路資料庫中的統計參數
6.2.2 利用conv操作符實現KEGG標識符與外部標識符的相互轉換
6.2.3 提取KEGG分類學資料庫的物種列表
6.2.4 獲取KEGG通路資料庫中人類的通路列表
6.2.5 為通路染色
6.2.6 展示靜態圖
6.3 調用Bioperl函式
6.3.1 簡介
6.3.2 訪問序列信息
6.3.3 從MATLAB調用Perl程式
6.3.4 在Perl程式中調用MATLAB函式
6.3.5 生物信息學工具箱中的蛋白質分析工具
參考文獻
2.1.4 考察序列片段的鹼基組成
2.1.5 考察質量打分分布
2.1.6 在標準之間轉換質量打分
2.1.7 根據質量打分進行過濾和去除
2.1.8 統計讀數出現概況
2.1.9 識別人造的均聚物
2.2 識別RNA-seq數據中差異表達的基因
2.2.1 RNA-seq技術介紹
2.2.2 前列腺癌症數據集
2.2.3 為目標基因建立一個注釋對象
2.2.4 輸入匹配的短讀數匹配數據
2.2.5 確定數位化基因表達
2.2.6 推斷RNA表達的差異信號
2.2.7 估計文庫規模因子
2.2.8 估計基因豐度
2.2.9 估計負二項式分布參數
2.2.10 經驗累計分布函式
2.2.11 測試差異表達
2.3 分析人類末端腸道微生物
2.3.1 人類末端腸道菌群簡介
2.3.2 成人遠端腸道微生物分類剖析
2.3.3 結合分類分布和基本分類
2.3.4 基於KEGG類進行功能對比分析
2.3.5 基於COG分類進行功能對比分析
2.3.6 基於功能表示集中微生物
2.4 分析馬尾藻樣本的宏基因組
2.4.1 簡介
2.4.2 讀取BLAST命中報告
2.4.3 過濾BLAST命中次數
2.4.4 記憶體匹配的分類學數據檔案
2.4.5 用分類學信息注釋BLAST報告
2.4.6 根據學名為BLAST命中分類
2.4.7 保存注釋的BLAST報告
2.4.8 確定BLAST命中次數的分類學分布
2.4.9 濾除孤立分配
2.4.10 繪製BLAST命中的分類學分布
2.4.11 將分析局限至每個查詢的最佳命中
2.4.12 分類節點信息的記憶體映射
2.4.13 根據更高的分類學目劃分BLAST命中
2.4.14 以圖的形式表示分類學分布
2.5 研究基因組規模的DNA甲基化譜差異
2.5.1 簡介
2.5.2 數據集
2.5.3 為BAM格式檔案創建MATLAB接口
2.5.4 關聯CpG島和DNA甲基化
2.5.5 序列數據的統計建模
2.5.6 識別顯著的甲基化區域
2.5.7 尋找具有顯著甲基化啟動子區域的基因
2.5.8 尋找顯著甲基化的基因內部區域
2.5.9 甲基化模式的差異分析
參考文獻
第3章 晶片數據分析
3.1 晶片數據可視化
3.1.1 考察微陣列數據
3.1.2 微陣列數據的空間圖
3.1.3 微陣列的統計參數
3.1.4 微陣列數據的散點圖
3.2 分析Affymetrix晶片數據
3.2.1 關於Affymetrix數據檔案
3.2.2 顯示圖像檔案
3.2.3 基因名稱和探針集ID
3.3 分析晶片數據並識別差異表達的基因
3.3.1 晶片數據集簡介
3.3.2 下載表達數據
3.3.3 過濾表達數據
3.3.4 識別差異的基因表達
3.3.5 採用基因本體注釋上調基因
3.3.6 尋找通路中的差異表達基因
3.4 通過分析Affymetrix SNP晶片研究DNA副本數變化
3.4.1 簡介
3.4.2 數據集
3.4.3 獲取SNP晶片的探針水平數據
3.4.4 輸入和轉換數據集
3.4.5 探針強度標準化
3.4.6 探針水平的概要
3.4.7 獲取SNP探針信息
3.4.8 原始拷貝數估計
3.4.9 過濾和排序
3.4.10 PCR片段長度標準化
3.4.11 CN基因譜
3.4.12 SCLS樣本的8q擴增
3.4.13 CN獲得/缺失匯總圖
3.5 晶片數據的基因本體富集分析
3.5.1 簡介
3.5.2 基因本體功能舉例
3.5.3 通過聚類分析篩選一組感興趣的基因子集
3.5.4 獲取酵母基因組資料庫中的注釋基因
3.5.5 基因晶片中被注釋的基因數目
3.5.6 觀察GO注釋的出現機率
3.5.7 最顯著條目的進一步分析
參考文獻
第4章 質譜數據分析
4.1 原始質譜數據的預處理
4.1.1 下載數據
4.1.2 譜的重採樣
4.1.3 基線校正
4.1.4 譜排列
4.1.5 譜圖示準化
4.1.6 去除峰噪聲
4.1.7 採用波形降噪方法尋找峰值
4.1.8 分段:用層次聚類合併譜峰
4.1.9 動態規劃分割
4.2 採用順序和並行計算實現譜的批量處理
4.2.1 簡介
4.2.2 設定數據倉庫
4.2.3 順序分批處理
4.2.4 基於多核計算機的並行批處理
4.2.5 基於分布計算的並行批處理
4.2.6 異步並行處理
4.2.7 後期處理
4.3 顯著性特徵識別以及蛋白質譜分類
4.3.1 簡介
4.3.2 樣本可視化
4.3.3 關鍵特徵排序
4.3.4 基於線性判別分析的盲分類
4.3.5 利用PCA/LDA進行數據降維
4.3.6 特徵選擇子集的隨機搜尋
4.3.7 利用評估集來評估選擇特徵的質量
4.3.8 可替換的統計學習方法
4.4 採用遺傳算法尋找質譜數據特徵
4.4.1 簡介
4.4.2 導入本地質譜數據到MATLAB
4.4.3 建立遺傳算法的適應度函式
4.4.4 建立初始種群
4.4.5 設定遺傳算法選項
4.4.6 運行GA尋找20個具有可判別性的特徵
4.4.7 顯示具有判別性的特徵
參考文獻
第5章 可視化工具
5.1 聚類結果可視化
5.1.1 數據導入
5.1.2 聚類
5.1.3 查看和更改聚類選項
5.1.4 數據集的行列聚類
5.1.5 對熱圖的操作
5.1.6 作業系統樹
5.1.7 改變配色方案和顯示範圍
5.1.8 5000個顯著基因的聚類
5.2 分子三維結構的可視化
5.2.1 泛素結構介紹
5.2.2 泛素分子顯示
5.2.3 對分子進行旋轉和放大
5.2.4 評估結構中的胺基酸電荷分布
5.2.5 研究結構的疏水性譜
5.2.6 測量原子距離
5.2.7 展示和標註泛素結構中的賴氨酸殘基
5.2.8 檢查泛素中的異肽鍵
5.2.9 泛素比對和SUMO序列
5.2.10 將泛素和SUMO的結構疊加
5.3 相互作用數據可視化
5.3.1 將進化樹表示為圖
5.3.2 改變BIOGRAGH對象的屬性
5.3.3 繪製自定義節點
5.4 圖論函式
5.4.1 從SimBiology模型創建一個圖
5.4.2 可視化圖
5.4.3 使用圖論函式
5.4.4 尋找節點pA與pC之間的最短路徑
5.4.5 遍歷圖
5.4.6 尋找圖中的連通部分
5.4.7 模擬移除一個反應
參考文獻
第6章 外部資料庫和程式調用
6.1 連線本地資料庫
6.1.1 檢查資料庫工具箱
6.1.2 為原始資料庫建立一個備份
6.1.3 為MATLAB配置資料庫
6.1.4 連線到資料庫
6.1.5 獲取資料庫信息
6.1.6 從GenBank收集序列數據並插入資料庫
6.1.7 核對導入數據的序列
6.1.8 更新資料庫中的數據
6.1.9 為資料庫添加比對信息
6.1.10 檢索比對
6.1.11 為數據增加BLAST報表信息
6.1.12 對序列進行BLAST搜尋
6.1.13 使用可視化的查詢構建器將信息導入MATLAB
6.2 連線KEGG的API網路伺服器
6.2.1 利用信息操作來展示通路資料庫中的統計參數
6.2.2 利用conv操作符實現KEGG標識符與外部標識符的相互轉換
6.2.3 提取KEGG分類學資料庫的物種列表
6.2.4 獲取KEGG通路資料庫中人類的通路列表
6.2.5 為通路染色
6.2.6 展示靜態圖
6.3 調用Bioperl函式
6.3.1 簡介
6.3.2 訪問序列信息
6.3.3 從MATLAB調用Perl程式
6.3.4 在Perl程式中調用MATLAB函式
6.3.5 生物信息學工具箱中的蛋白質分析工具
參考文獻