《大規模並行處理器編程實戰(第2版)》是2013年11月1日清華大學出版社出版的圖書,作者是(美) David B Kirk、Wen-mei W. Hwu。
基本介紹
- 中文名:大規模並行處理器編程實戰(第2版)
- 作者:(美) David B Kirk、Wen-mei W. Hwu
- 譯者:趙開勇、汪朝輝、程亦超
- 出版社:清華大學出版社
- 出版時間:2013年11月1日
- 定價:59.8 元
- 裝幀:平裝
- ISBN:9787302342724
- 印刷日期:2013.11.15
內容簡介,作者簡介,目錄,
內容簡介
本書旨在綜述並行編程,展示了專業人士和學生都可以使用的一種編程思維,以此來指導並行編程和最佳化應用程式,從而使性能得到顯著提升。本書作者DavidB.Kirk和Wen-meiW.Hwu所採用的簡潔、直觀、實用的方法基於他們多年的並行計算課程實踐。
並行模式:包括多章並行模式內容,是並行編程套用中使用的很多並行算法的基礎。
CUDAFortran:新增的這一章介紹CUDAFortran編程如何使用CUDA架構,其中講解了幾個CUDAFortran編程的實用示例。
OpenACC:新增的這一章介紹一個開放的並行編程預編譯指令,以實現並行編程簡潔化的目的。
Thrust:Thrust庫是CUDAC/C++的抽象層函式館。新增的這一章介紹了如何通過使用Thrust並行編程模板,對源程式只做簡單的修改就可以使程式實現高性能。
C++AMP:簡單介紹了C++AMP,它是由微軟提出來的Windows環境下一套簡化大規模並行處理器的編程接口。
NVIDIA的Kepler架構:探討NVIDIA的高性能、低功耗的GPU架構的編程特性。
作者簡介
David B. Kirk院士:美國國家工程院院士,NVIDIA院士、前首席科學家,也是CUDA技術的創始人之一,2002年曾榮獲ACM SIGGRAPH計算機圖形成就獎。他擁有麻省理工學院的機械工程學學士和碩士學位,加州理工學院的計算機科學博士學位。Kirk是50項與圖形晶片設計相關的專利和專利申請的發明者,發表了50多篇關於圖形處理技術的論文,是可視化計算技術方面的權威。
Wen-mei W. Hwu(胡文美)教授:擁有美國加州大學伯克利分校計算機科學博士學位,擔任美國伊利諾伊大學厄巴納-香檳分校(UIUC)協調科學實驗室電氣與計算機工程AMD創始人Jerry Sanders講席教授(Walter J. SandersⅢAdvanced Micro Devices Endowed Chair)。胡文美教授還是IEEE(國際電氣電子工程師學會)院士,ACM(美國計算機學會)院士。
目錄
第1章 引言
1.1 異構並行計算
1.2 現代GPU的體系結構
1.3 為什麼需要更高的速度和並行化
1.4 應用程式的加速
1.5 並行程式語言和模型
1.6 本書的總體目標
1.7 本書的組織結構
參考文獻
第2章 GPU計算的發展歷程
2.1 圖形流水線的發展
2.1.1 固定功能的圖形流水線時代
2.1.2 可程式實時圖形流水線的發展
2.1.3 圖形與計算結合的處理器
2.2 GPGPU:一個中間步驟
2.3 GPU計算
2.3.1 可擴展的GPU
2.3.2 發展近況
2.3.3 未來發展趨勢
參考文獻與課外閱讀
第3章 CUDA簡介
3.1 數據並行性
3.2 CUDA的程式結構
3.3 向量加法kernel函式
3.4 設備全局存儲器與數據傳輸
3.5 kernel函式與執行緒
3.6 小結
3.6.1 函式聲明
3.6.2 啟動kernel函式
3.6.3 預定義變數
3.6.4 運行時API
3.7 習題
參考文獻
第4章 數據並行執行模型
4.1 CUDA的執行緒組織
4.2 執行緒與多維數據的映射
4.3 矩陣乘法——一個更加複雜的kernel函式
4.4 執行緒同步和透明的可擴展性
4.5 執行緒塊的資源分配
4.6 查詢設備屬性
4.7 執行緒調度和容許時延
4.8 小結
4.9 習題
第5章 CUDA存儲器
5.1 存儲器訪問效率的重要性
5.2 CUDA設備存儲器的類型
5.3 減少全局存儲器流量的一種策略
5.4 分塊矩陣乘法的kernel函式
5.5 存儲器——限制並行性的一個因素
5.6 小結
5.7 習題
第6章 性能最佳化
6.1 WARP和執行緒執行
6.2 全局存儲器的頻寬
6.3 執行資源的動態劃分
6.4 指令混合和執行緒粒度
6.5 小結
6.6 習題
參考文獻
第7章 浮點運算
7.1 浮點格式
7.1.1 M的規範化表示
7.1.2 E的余碼錶示
7.2 能表示的數
7.3 特殊的位模式與IEEE格式中的精度
7.4 算術運算的準確度和捨入
7.5 算法的最佳化
7.6 數值穩定性
7.7 小結
7.8 習題
參考文獻
第8章 並行模式:卷積
8.1 背景
8.2 一個基本算法:一維並行卷積
8.3 常數存儲器和高速快取
8.4 使用光環元素的分塊一維卷積
8.5 一個更簡單的分塊一維卷積——通用高速快取
8.6 小結
8.7 習題
第9章 並行模式:前綴和
9.1 背景
9.2 簡單並行掃描
9.3 考慮工作效率
9.4 工作高效的並行掃描
9.5 任意輸入長度的並行掃描
9.6 小結
9.7 習題
參考文獻
……
第10章 並行模式:稀疏矩陣—向量乘法
第11章 套用案例研究:高級MRI重構
第12章 套用案例研究:分子可視化和分析
第13章 並行編程和計算思想
第14章 OpenCL簡介
第15章 OpenACC並行編程
第16章 Thrust:一個面向效率的CUDA編程庫
第17章 CUDA FORTRAN
第18章 C++ AMP簡介
第19章 異構集群編程
第20章 CUDA動態並行
第21章 結論與展望
附錄A 矩陣乘法主機版的原始碼
附錄B GPU的計算能力