《數據中心一體化最佳實踐:設計倉儲級計算機》是2020年機械工業出版社出版的圖書,作者是路易斯·安德烈·巴羅索[Luiz,Andre,Barroso]。
基本介紹
- 書名:數據中心一體化最佳實踐:設計倉儲級計算機
- 作者: 路易斯·安德烈·巴羅索[Luiz,Andre,Barroso]
- 出版社:機械工業出版社
- 出版時間:2020年1月1日
- ISBN:9787111644866
編輯推薦,內容簡介,作者簡介,目錄,
編輯推薦
AI技術的出現和普及使得機器智慧型往前跨了一大步,這同時也對數據中心的算力能力提出了更高的要求。隨著摩爾定律腳步的放緩,依賴傳統的通用CPU已經無法滿足複雜的深度學習網路的算力要求,GPGPU和專用AI晶片在數據中心的比重也因此變得越來越高,有效緩解了“算力赤字”的問題,而本書中谷歌TPU的系統設計從晶片到整機再到集群的完美契合正是當代數據中心一體化實踐的案例。
內容簡介
本書介紹了倉儲級計算機(WSC)的設計。這種計算平台是雲計算的核心,支撐著我們每天都在使用的各種強大的網際網路服務。書中討論了此類新型系統如何將數據中心本身當作一台超大規模的倉儲級計算機來使用,同時又能使軟硬體充分協同並提供高性能的網際網路服務。每一章都涵蓋多個真實世界的案例,其中包括詳盡的谷歌線上服務的基礎設施信息
全書共分8章。第1章為緒論,概述倉儲級計算機及其架構;第2章首先總體介紹WSC中運行的套用,以及包括平台層軟體、集群層基礎軟體、監控和管理軟體在內的系統基礎設施技術棧;第3章涵蓋關鍵的硬體組件,重點討論伺服器和加速器組件、存儲架構和數據中心網路設計,以及計算、存儲和網路之間的相互作用;第4章著眼於更底層的系統設計,重點關注數據中心電力、冷卻基礎設施和建築的設計;第5章討論能耗和能效相關的話題,包括穩定測定能效的挑戰、衡量數據中心能效的電力使用效率以及電力超額配置的設計和好處;第6章講解如何對WSC的TCO進行建模,其中包括資本支出和運營支出,並通過案例比較傳統計算機和WSC計算機;第7章討論正常運行時間和可用性,包括如何對故障進行分類以及故障處理、維修最佳化的方法;第8章總結歷史趨勢並展望未來——WSC和雲計算將成為主流和中心。
本書主要面向當今WSC系統的架構師和程式開發人員,希望能為有志於在此重要領域發展的人員打下一個堅實的基礎,同時相關的內容也適用於那些僅想了解網際網路基礎設施信息的人群。
作者簡介
作者簡介
路易斯·安德烈·巴羅索(Luiz André Barroso) 谷歌研究員、ACM會士,也是AAAS會士。目前領導著谷歌地圖的工程基礎設施工作,曾是谷歌平台工程團隊的*一任經理,負責設計公司的計算平台。在網頁搜尋、基礎軟體、存儲可用性、能效和硬體設計多個工程領域都有涉獵。
烏爾斯·霍爾茲勒(Urs Hölzle) 谷歌首位工程副總裁,自1999年以來一直領導著谷歌技術基礎設施的開發。他目前的職責包括伺服器、網路、數據中心以及基礎軟體的設計與運維,以支持谷歌內部和對外的雲平台。他是ACM和AAAS會士、瑞士技術科學院和國家工程院的成員,並在美國的世界自然基金會的董事會任職。
帕塔薩拉蒂·蘭加納坦(Parthasarathy Ranganathan) 谷歌計算和數據中心硬體領域的技術帶頭人。此前,他曾是惠普實驗室的研究員和首席技術專家,領導著系統和數據中心的研究。他發表了大量的論文,作為共同發明人的專利超過100項。他還是ACM SIGARCH Maurice Wilkes獎的獲得者以及萊斯大學傑出青年工程校友獎得主。Partha目前是谷歌的傑出工程師、IEEE和ACM會士。
譯者簡介
徐凌傑,阿里雲資深技術專家,負責包括GPU和AI晶片在內的數據中心異構計算基礎設施,專注於架構與套用的軟硬體協同。在加入阿里巴巴之前,他曾在NVIDIA、AMD和三星擔任過多個大型GPU晶片項目的高級管理和架構師職位。他本科就讀於上海交通大學信息工程專業,後赴美在德州大學奧斯汀分校獲計算機體系結構碩士學位,並擁有加州大學伯克利分校的MBA學位。
目錄
譯者序
致謝
作者簡介
譯者簡介
第1章 緒論1
1.1 倉儲級計算機2
1.2 規模化下的成本效益3
1.3 不僅是伺服器的簡單堆砌4
1.4 單個數據中心與多個數據中心4
1.5 為什麼WSC對你至關重要5
1.6 WSC架構概述6
1.6.1 伺服器6
1.6.2 存儲7
1.6.3 網路結構8
1.6.4 建築與基礎設施9
1.6.5 電力使用11
1.6.6 故障與維修處理12
1.7 本書概述12
第2章 工作負載與基礎軟體15
2.1 WSC系統棧15
2.2 平台層軟體16
2.3 集群層基礎軟體17
2.3.1 資源管理17
2.3.2 集群基礎軟體18
2.3.3 套用框架18
2.4 套用層軟體19
2.4.1 工作負載多樣性19
2.4.2 網頁搜尋20
2.4.3 視頻服務22
2.4.4 學術文章相似度搜尋23
2.4.5 機器學習24
2.5 監控基礎設施27
2.5.1 服務層儀錶盤27
2.5.2 性能診斷工具27
2.5.3 平台層健康監控28
2.6 WSC軟體的權衡29
2.6.1 數據中心和台式機29
2.6.2 性能與可用性工具箱30
2.6.3 購買還是自建32
2.6.4 長尾容忍33
2.6.5 工程師應該知道的延遲數據33
2.7 雲計算35
2.7.1 面向公有雲服務的WSC和對內服務的WSC36
2.7.2 雲原生軟體36
2.8 倉儲級信息安全37
第3章 WSC硬體組件39
3.1 伺服器硬體39
3.1.1 伺服器和機架概述40
3.1.2 大型SMP通信效率的影響43
3.1.3 高性能伺服器和低性能伺服器45
3.2 計算加速器48
3.2.1 圖形處理器49
3.2.2 張量處理器50
3.3 網路52
3.3.1 集群網路52
3.3.2 主機網路56
3.4 存儲57
3.4.1 硬碟托盤與無盤伺服器57
3.4.2 WSC非結構化存儲58
3.4.3 WSC結構化存儲59
3.4.4 存儲與網路技術相互作用60
3.5 平衡的設計61
3.5.1 系統平衡:存儲層次結構62
3.5.2 量化延遲、頻寬及容量62
第4章 數據中心基礎:建築、電力與冷卻65
4.1 數據中心概述65
4.1.1 等級分類與規格65
4.1.2 建築基礎知識66
4.2 數據中心電力系統68
4.2.1 不間斷電源系統68
4.2.2 配電單元69
4.2.3 交流與直流配電架構對比70
4.3 套用實例:冗餘徑向配電71
4.4 套用實例:中壓電源層72
4.5 數據中心冷卻系統74
4.5.1 機房空調系統76
4.5.2 冷水機組77
4.5.3 冷卻塔77
4.5.4 自然冷卻79
4.5.5 對氣流的考量79
4.5.6 機架內冷卻、行級冷卻和液體冷卻81
4.5.7 基於貨櫃的數據中心82
4.6 套用實例:谷歌數據中心頂部冷卻系統84
4.7 本章小結84
第5章 能耗與能效85
5.1 數據中心能效85
5.1.1 PUE指標86
5.1.2 PUE指標的問題88
5.1.3 數據中心能效損失來源89
5.1.4 提升數據中心能效90
5.1.5 基礎設施之外的因素91
5.2 計算能效92
5.2.1 能效的測量92
5.2.2 伺服器能效92
5.2.3 WSC使用畫像93
5.3 能耗成比例計算95
5.3.1 能耗成比例程度低的原因96
5.3.2 提升能耗成比例的能力97
5.3.3 系統其他部分的能耗成比例98
5.3.4 低功耗模式的相對有效性99
5.3.5 軟體在能耗成比例中的作用100
5.4 通過專用定製提高能效103
5.5 數據中心供電105
5.5.1 部署適量的設備105
5.5.2 數據中心超額用電105
5.6 伺服器能量使用趨勢107
5.7 本章小結109
第6章 成本建模111
6.1 資本成本111
6.2 運營成本113
6.3 案例分析114
6.4 實際數據中心成本116
6.5 建模部分使用的數據中心117
6.6 公有雲成本118
第7章 故障處理與維修119
7.1 軟體容錯120
7.2 故障分類121
7.2.1 故障嚴重性分級122
7.2.2 導致服務級故障的原因123
7.3 機器級故障124
7.3.1 導致機器級故障的原因127
7.3.2 故障預測128
7.4 維修129
7.5 容錯不是隱藏錯誤130
7.6 集群系統設計的故障統計131
第8章 結束語135
8.1 硬體136
8.2 軟體137
8.3 經濟性與能效138
8.4 打造回響快速的大規模系統139
8.4.1 不斷演進的工作負載139
8.4.2 殘酷的阿姆達爾定律139
8.4.3 為微秒級系統最佳化140
8.4.4 長尾140
8.5 展望141
8.5.1 摩爾定律的終結141
8.5.2 加速器與全局系統設計141
8.5.3 軟體定義基礎設施142
8.5.4 計算機體系結構和WSC的新紀元143
8.6 總結144
參考文獻145