《雲計算實戰——可靠性與可用性設計》在明確了雲計算、虛擬化、服務可靠性以及服務可用性的關鍵術語和概念的基礎上,通過對雲計算服務可靠性及可用性的分析,結合雲計算所涉及的虛擬化、分散式部署等技術特點,全面、深入、系統地探討了雲計算系統及服務可靠性的設計、計算、評估、最佳化方法。 《雲計算實戰——可靠性與可用性設計》具有較強專業性和技術性,同時還具有較強的可操作性,對雲計算專業從業人員和科研工作者來說,是一本不可多得的學習與參考書籍。《雲計算實戰——可靠性與可用性設計》既適用於雲計算系統的專業技術研發和工程實施人員,也適合於高等院校通信、電子、計算機等專業的師生,同時也可為雲服務用戶提供有益的參考。
基本介紹
- 書名:雲計算實戰:可靠性與可用性設計
- 作者:鮑爾 (Eric Bauer) 亞當斯 (Randee Adams)
- 出版日期:2014年1月1日
- 語種:簡體中文
- ISBN:9787115329325
- 外文名:Reliability and Availability of Cloud Computing
- 出版社:人民郵電出版社
- 頁數:246頁
- 開本:16
- 品牌:人民郵電出版社
基本介紹,內容簡介,作者簡介,圖書目錄,
基本介紹
內容簡介
作者是阿爾卡特朗訊公司軟體解決方案及服務的工程經理,擁有十多項美國專利,已發表多本可靠性和可用性方面的專著。
內容聚焦在可用性和可靠性上,深入透徹,具有很高的實用價值,而且出版時間新。
內容聚焦在可用性和可靠性上,深入透徹,具有很高的實用價值,而且出版時間新。
作者簡介
Eric Bauer是阿爾卡特朗訊的軟體、解決方案和服務事業部的可靠性工程經理。他目前專注於阿爾卡特朗訊的雲計算相關產品、IP多媒體子系統(IMS)、以及其他解決方案的可靠性和可用性。他獲得了超過12項美國專利,並在貝爾實驗室的技術期刊上發表了多篇論文。 Bauer先生先後獲得了康奈爾大學的電氣工程學士學位、普渡大學的電氣工程碩士學位。
圖書目錄
第1部分 基本概念篇
第1章 雲計算 3
1.1 雲的基本特徵 3
1.1.1 按需自服務 4
1.1.2 廣泛的網路訪問 4
1.1.3 資源共享 4
1.1.4 快速彈性 5
1.1.5 服務可度量 5
1.2 共有的雲特徵 6
1.3 雲計算到底是什麼 6
1.3.1 什麼是數據中心 7
1.3.2 雲計算和傳統數據中心有何不同 8
1.4 服務模式 8
1.5 雲部署模式 9
1.6 雲計算中的角色 10
1.7 雲計算的優勢 12
1.8 雲計算的風險 12
第2章 虛擬化 13
2.1 背景 13
2.2 什麼是虛擬化 14
2.2.1 管理程式的類型 14
2.2.2 虛擬和仿真 15
2.3 伺服器虛擬化 15
2.3.1 完全虛擬化 16
2.3.2 部分虛擬化 17
2.3.3 作業系統虛擬化 17
2.3.4 討論 17
2.4 虛擬機的生命周期 18
2.4.1 虛擬機快照 20
2.4.2 克隆虛擬機 20
2.4.3 高可用性機制 21
2.5 虛擬化的可靠性和可用性風險 21
第3章 服務可靠性和服務可用性 22
3.1 錯誤和失效 22
3.2 八成分框架 24
3.3 服務可用性 26
3.3.1 服務可用性指標 26
3.3.2 MTBF和MTTR 27
3.3.3 服務和網元影響中斷 28
3.3.4 局部中斷 29
3.3.5 可用性等級 30
3.3.6 中斷歸因 31
3.3.7 計畫內宕機時間 32
3.4 服務可靠性 33
3.4.1 服務可靠性指標 33
3.4.2 缺陷事務 34
3.5 服務時延 35
3.6 冗餘和高可用性 38
3.6.1 冗餘 39
3.6.2 高可用性 41
3.7 高可用性和災難恢復 43
3.8 流媒體服務 45
3.8.1 控制和數據平面 45
3.8.2 服務質量指標 45
3.8.3 等時性數據 46
3.8.4 時延期望 47
3.8.5 流媒體質量損傷 47
3.9 雲計算的可靠性和可用性風險 48
第2部分 分析篇
第4章 雲計算的可靠性和可用性分析 51
4.1 服務可靠性和可用性的期望 51
4.2 雲基本特徵的風險 52
4.2.1 按需自助服務 52
4.2.2 寬頻網路接入 52
4.2.3 資源池 52
4.2.4 快速彈性 53
4.2.5 測量服務 54
4.3 常見雲特徵的影響 55
4.3.1 虛擬化 55
4.3.2 地理分布 55
4.3.3 彈性計算 55
4.3.4 高級安全性 55
4.3.5 大規模 56
4.3.6 同質化 56
4.4 服務模式的風險 56
4.4.1 傳統的責任歸因 56
4.4.2 雲套用的責任歸因 57
4.5 IT服務管理和可用性的風險 58
4.5.1 ITIL概述 58
4.5.2 服務策略 59
4.5.3 服務設計 59
4.5.4 服務轉移 60
4.5.5 服務運營 61
4.5.6 持續服務改進 61
4.5.7 IT服務管理概述 62
4.5.8 服務編排的風險 62
4.5.9 IT服務管理風險 63
4.6 過程區域中斷的風險 63
4.7 故障檢測的注意事項 65
4.7.1 硬體故障 67
4.7.2 編程錯誤 67
4.7.3 數據的不一致性和錯誤 67
4.7.4 冗餘錯誤 67
4.7.5 系統電源故障 67
4.7.6 網路錯誤 67
4.7.7 套用協定錯誤 68
4.8 部署模型的風險 68
4.9 IaaS數據中心的期望值 68
第5章 虛擬化的可靠性分析 70
5.1 可靠性分析技術 70
5.1.1 可靠性框圖 70
5.1.2 單點故障分析 71
5.1.3 故障模式影響分析(FMEA) 71
5.2 虛擬化技術的可靠性分析 73
5.2.1 全虛擬化分析 73
5.2.2 虛擬作業系統分析 74
5.2.3 半虛擬化分析 74
5.2.4 VM共存分析 75
5.2.5 討論 77
5.3 軟體故障率分析 77
5.3.1 虛擬化和軟體故障率 77
5.3.2 虛擬機管理程式故障率 78
5.3.3 虛擬化和雲的其他軟體風險 78
5.4 恢復模型 78
5.4.1 傳統的恢複選項 78
5.4.2 虛擬化恢複選項 79
5.4.3 討論 82
5.5 套用架構策略 83
5.5.1 按需單用戶模式 83
5.5.2 單用戶守護進程模式 84
5.5.3 多用戶伺服器模式 84
5.5.4 伺服器整合模式 84
5.6 虛擬化恢複方式的可用性建模 85
5.6.1 虛擬化單工架構的可用性 85
5.6.2 虛擬化冗餘架構的可用性 86
5.6.3 關鍵故障率 86
5.6.4 故障覆蓋率 87
5.6.5 故障檢測延遲 87
5.6.6 切換延遲 87
5.6.7 切換成功率 87
5.6.8 建模與“快速故障” 88
5.6.9 本地和虛擬化部署的比較 88
第6章 硬體可靠性、虛擬化和服務可用性 89
6.1 對硬體故障停機時間的期望 89
6.2 硬體故障 89
6.3 硬體故障率 91
6.4 硬體故障檢測 92
6.5 硬體故障遏制 93
6.6 硬體故障的緩解 93
6.7 通過虛擬化緩解硬體故障 95
6.7.1 虛擬CPU 95
6.7.2 虛擬記憶體 96
6.7.3 虛擬存儲 96
6.8 虛擬化網路 97
6.8.1 虛擬網路接口卡 97
6.8.2 虛擬區域網路 98
6.8.3 虛擬IP位址 99
6.8.4 虛擬專用網路 99
6.9 虛擬硬體的MTTR 99
6.10 討論 100
第7章 容量和彈性 101
7.1 系統負載基礎知識 101
7.1.1 特別事件的考慮 102
7.1.2 Slashdot效應 103
7.2 過載、服務的可靠性和可用性 103
7.3 傳統的容量規劃 104
7.4 雲和容量 105
7.4.1 標稱的雲存儲模型 106
7.4.2 彈性的期望 108
7.5 管理在線上容量 110
7.6 容量相關的服務風險 112
7.6.1 彈性和彈性故障 112
7.6.2 部分容量故障 114
7.6.3 服務延遲風險 115
7.6.4 容量損傷和服務可靠性 117
7.7 容量管理風險 117
7.7.1 脆弱的套用架構 118
7.7.2 故障或監測數據不足 118
7.7.3 錯誤的容量決策 119
7.7.4 不可靠的容量擴張 119
7.7.5 不可靠的容量縮減 119
7.7.6 轉換速度不足 119
7.7.7 緩慢的容量管理決策 120
7.7.8 資源庫存耗竭 120
7.7.9 雲跳轉失敗 120
7.7.10 政策限制 120
7.8 安全性和服務可用性 121
7.8.1 服務可用性的安全風險 121
7.8.2 拒絕服務攻擊 122
7.8.3 DoS攻擊的防禦 123
7.8.4 量化安全攻擊對服務可用性的影響 123
7.8.5 建議 124
7.9 彈性擴張和收縮的架構 124
第8章 服務編排分析 126
8.1 服務編排定義 126
8.2 基於策略的管理 127
8.2.1 SLR的作用 128
8.2.2 服務可靠性和可用性的測量 128
8.3 雲管理 129
8.3.1 雲管理中快速彈性的作用 129
8.3.2 雲管理中雲突發的作用 129
8.4 服務編排在風險緩解中的作用 130
8.4.1 延遲 130
8.4.2 可靠性 130
8.4.3 監督管理 131
8.4.4 安全 131
8.5 小結 132
第9章 地理分布、地理冗餘和災難恢復 133
9.1 地理分布VS地理冗餘 133
9.2 傳統的災難恢復 134
9.3 虛擬化和災難恢復 135
9.4 雲計算和災難恢復 136
9.5 地理冗餘恢復模型 137
9.6 雲和傳統地理冗餘的附加益處 138
9.6.1 減少預期的宕機時間 138
9.6.2 緩解災難性的網路元件故障 138
9.6.3 減少未發現的和雙工元件故障 139
9.7 討論 139
第3部分 建議篇
第10章 套用、解決方案和責任認定 143
10.1 套用配置場景 143
10.2 套用的部署方案 144
10.3 系統宕機時間預期 145
10.3.1 傳統的系統宕機時間預期 145
10.3.2 虛擬化套用宕機時間預期 146
10.3.3 IaaS的硬體宕機時間預期 147
10.3.4 雲套用的宕機時間預算 149
10.3.5 總結 151
10.4 最終的端到端解決方案的注意事項 151
10.4.1 什麼是端到端解決方案 152
10.4.2 雲消費者的特定架構 153
10.4.3 數據中心冗餘 154
10.5 服務不佳的原因 155
10.6 解決方案服務的測量 157
10.7 管理可靠性和雲計算服務 160
第11章 構建可靠系統的建議 161
11.1 虛擬化和雲計算的架構 161
11.1.1 軟體映射到VM 161
11.1.2 服務負載分配 162
11.1.3 數據管理 162
11.1.4 軟體冗餘和高可用性機制 163
11.1.5 快速彈性 165
11.1.6 過載控制 165
11.1.7 共享 165
11.1.8 多租戶 166
11.1.9 同步套用 166
11.2 災難恢復 167
11.3 IT服務管理的注意事項 167
11.3.1 軟體升級和打補丁 167
11.3.2 服務遷移活動的影響分析 168
11.3.3 通過VM遷移緩解服務遷移活動的影響 168
11.3.4 服務遷移活動的測試 170
11.3.5 流程錯誤最小化 170
11.3.6 服務編排的注意事項 172
11.4 許多分散式雲VS少量巨型雲 172
11.5 硬體歸因宕機時間最小化 173
11.6 架構最佳化 178
11.6.1 可靠性和可用性標準 178
11.6.2 可訪問性最佳化 179
11.6.3 高可用性、持續性、可靠性和質量最佳化 181
11.6.4 災難恢復最佳化 181
11.6.5 操作注意事項 181
11.6.6 案例分析 182
11.6.7 理論最優的套用架構 186
第12章 虛擬化套用的可靠性設計 188
12.1 可靠性設計 188
12.2 調整DfR以適應虛擬化套用 189
12.2.1 硬體獨立性套用場景 189
12.2.2 伺服器整合套用場景 190
12.2.3 多租戶套用場景 191
12.2.4 虛擬化設備套用方案 191
12.2.5 雲部署套用場景 191
12.3 可靠性要求 191
12.3.1 通用可用性要求 192
12.3.2 服務的可靠性和延遲要求 192
12.3.3 過載要求 193
12.3.4 線上容量增長和收縮 194
12.3.5 (虛擬化)實時遷移要求 195
12.3.6 系統轉變活動的要求 196
12.3.7 地理冗餘和服務持續性要求 196
12.4 可靠性定性分析 197
12.4.1 虛擬化套用的SPOF分析 197
12.4.2 虛擬化套用的故障模式影響分析 198
12.4.3 容量的增長和收縮分析 198
12.5 可靠性定量預算與建模 199
12.5.1 可用性(宕機時間)建模 199
12.5.2 整體宕機時間預算及目標 200
12.5.3 管理維護預算分配 200
12.6 健壯性測試 200
12.6.1 基準健壯性測試 201
12.6.2 高級主題:虛擬化能更好地測試健壯性 204
12.7 穩定性測試 205
12.8 實際性能分析 206
12.9 可靠性路線圖 207
12.10 硬體可靠性 208
第13章 雲計算解決方案的可靠性設計 209
13.1 解決方案的可靠性設計 209
13.2 解決方案範圍和期望 210
13.3 可靠性需求 212
13.3.1 解決方案的可用性需求 212
13.3.2 解決方案的可靠性需求 212
13.3.3 災難恢復需求 213
13.3.4 彈性需求 214
13.3.5 明確的配置參數 214
13.4 解決方案建模與分析 215
13.4.1 雲數據中心部署的可靠性框圖 215
13.4.2 解決方案故障模式的影響分析 215
13.4.3 解決方案服務轉變活動的影響分析 216
13.4.4 雲數據中心的服務可用性(MP2)分析 216
13.4.5 聚合服務可用性(MP3)建模 216
13.4.6 恢復點目標分析 219
13.5 組件可靠性檢查 219
13.6 解決方案的測試和驗證 219
13.6.1 健壯性測試 220
13.6.2 服務的可靠性測試 220
13.6.3 地理冗餘測試 220
13.6.4 彈性與調度測試 221
13.6.5 穩定性測試 221
13.6.6 在用服務測試 221
13.7 實際性能的跟蹤和分析 222
13.7.1 雲服務的測量 223
13.7.2 解決方案的可靠性路線圖 224
13.8 解決方案可靠性的其他主題 225
13.8.1 服務等級協定 225
13.8.2 雲服務提供商的選擇 226
13.8.3 書面的可靠性計畫 226
第14章 總結 228
14.1 服務可靠性和服務可用性 229
14.2 故障問責和雲計算 230
14.3 服務宕機時間因素 232
14.4 服務可用性測量點 234
14.5 雲容量和彈性的考慮 235
14.6 最大化服務可用性 236
14.6.1 降低產品歸因的宕機時間 236
14.6.2 降低數據中心歸因的宕機時間 236
14.6.3 降低IT服務管理的宕機時間 236
14.6.4 降低災難恢復的宕機時間 237
14.6.5 最佳化雲服務可用性 237
14.7 可靠性努力 238
14.8 結束語 239
縮略語 240
參考文獻 244
第1章 雲計算 3
1.1 雲的基本特徵 3
1.1.1 按需自服務 4
1.1.2 廣泛的網路訪問 4
1.1.3 資源共享 4
1.1.4 快速彈性 5
1.1.5 服務可度量 5
1.2 共有的雲特徵 6
1.3 雲計算到底是什麼 6
1.3.1 什麼是數據中心 7
1.3.2 雲計算和傳統數據中心有何不同 8
1.4 服務模式 8
1.5 雲部署模式 9
1.6 雲計算中的角色 10
1.7 雲計算的優勢 12
1.8 雲計算的風險 12
第2章 虛擬化 13
2.1 背景 13
2.2 什麼是虛擬化 14
2.2.1 管理程式的類型 14
2.2.2 虛擬和仿真 15
2.3 伺服器虛擬化 15
2.3.1 完全虛擬化 16
2.3.2 部分虛擬化 17
2.3.3 作業系統虛擬化 17
2.3.4 討論 17
2.4 虛擬機的生命周期 18
2.4.1 虛擬機快照 20
2.4.2 克隆虛擬機 20
2.4.3 高可用性機制 21
2.5 虛擬化的可靠性和可用性風險 21
第3章 服務可靠性和服務可用性 22
3.1 錯誤和失效 22
3.2 八成分框架 24
3.3 服務可用性 26
3.3.1 服務可用性指標 26
3.3.2 MTBF和MTTR 27
3.3.3 服務和網元影響中斷 28
3.3.4 局部中斷 29
3.3.5 可用性等級 30
3.3.6 中斷歸因 31
3.3.7 計畫內宕機時間 32
3.4 服務可靠性 33
3.4.1 服務可靠性指標 33
3.4.2 缺陷事務 34
3.5 服務時延 35
3.6 冗餘和高可用性 38
3.6.1 冗餘 39
3.6.2 高可用性 41
3.7 高可用性和災難恢復 43
3.8 流媒體服務 45
3.8.1 控制和數據平面 45
3.8.2 服務質量指標 45
3.8.3 等時性數據 46
3.8.4 時延期望 47
3.8.5 流媒體質量損傷 47
3.9 雲計算的可靠性和可用性風險 48
第2部分 分析篇
第4章 雲計算的可靠性和可用性分析 51
4.1 服務可靠性和可用性的期望 51
4.2 雲基本特徵的風險 52
4.2.1 按需自助服務 52
4.2.2 寬頻網路接入 52
4.2.3 資源池 52
4.2.4 快速彈性 53
4.2.5 測量服務 54
4.3 常見雲特徵的影響 55
4.3.1 虛擬化 55
4.3.2 地理分布 55
4.3.3 彈性計算 55
4.3.4 高級安全性 55
4.3.5 大規模 56
4.3.6 同質化 56
4.4 服務模式的風險 56
4.4.1 傳統的責任歸因 56
4.4.2 雲套用的責任歸因 57
4.5 IT服務管理和可用性的風險 58
4.5.1 ITIL概述 58
4.5.2 服務策略 59
4.5.3 服務設計 59
4.5.4 服務轉移 60
4.5.5 服務運營 61
4.5.6 持續服務改進 61
4.5.7 IT服務管理概述 62
4.5.8 服務編排的風險 62
4.5.9 IT服務管理風險 63
4.6 過程區域中斷的風險 63
4.7 故障檢測的注意事項 65
4.7.1 硬體故障 67
4.7.2 編程錯誤 67
4.7.3 數據的不一致性和錯誤 67
4.7.4 冗餘錯誤 67
4.7.5 系統電源故障 67
4.7.6 網路錯誤 67
4.7.7 套用協定錯誤 68
4.8 部署模型的風險 68
4.9 IaaS數據中心的期望值 68
第5章 虛擬化的可靠性分析 70
5.1 可靠性分析技術 70
5.1.1 可靠性框圖 70
5.1.2 單點故障分析 71
5.1.3 故障模式影響分析(FMEA) 71
5.2 虛擬化技術的可靠性分析 73
5.2.1 全虛擬化分析 73
5.2.2 虛擬作業系統分析 74
5.2.3 半虛擬化分析 74
5.2.4 VM共存分析 75
5.2.5 討論 77
5.3 軟體故障率分析 77
5.3.1 虛擬化和軟體故障率 77
5.3.2 虛擬機管理程式故障率 78
5.3.3 虛擬化和雲的其他軟體風險 78
5.4 恢復模型 78
5.4.1 傳統的恢複選項 78
5.4.2 虛擬化恢複選項 79
5.4.3 討論 82
5.5 套用架構策略 83
5.5.1 按需單用戶模式 83
5.5.2 單用戶守護進程模式 84
5.5.3 多用戶伺服器模式 84
5.5.4 伺服器整合模式 84
5.6 虛擬化恢複方式的可用性建模 85
5.6.1 虛擬化單工架構的可用性 85
5.6.2 虛擬化冗餘架構的可用性 86
5.6.3 關鍵故障率 86
5.6.4 故障覆蓋率 87
5.6.5 故障檢測延遲 87
5.6.6 切換延遲 87
5.6.7 切換成功率 87
5.6.8 建模與“快速故障” 88
5.6.9 本地和虛擬化部署的比較 88
第6章 硬體可靠性、虛擬化和服務可用性 89
6.1 對硬體故障停機時間的期望 89
6.2 硬體故障 89
6.3 硬體故障率 91
6.4 硬體故障檢測 92
6.5 硬體故障遏制 93
6.6 硬體故障的緩解 93
6.7 通過虛擬化緩解硬體故障 95
6.7.1 虛擬CPU 95
6.7.2 虛擬記憶體 96
6.7.3 虛擬存儲 96
6.8 虛擬化網路 97
6.8.1 虛擬網路接口卡 97
6.8.2 虛擬區域網路 98
6.8.3 虛擬IP位址 99
6.8.4 虛擬專用網路 99
6.9 虛擬硬體的MTTR 99
6.10 討論 100
第7章 容量和彈性 101
7.1 系統負載基礎知識 101
7.1.1 特別事件的考慮 102
7.1.2 Slashdot效應 103
7.2 過載、服務的可靠性和可用性 103
7.3 傳統的容量規劃 104
7.4 雲和容量 105
7.4.1 標稱的雲存儲模型 106
7.4.2 彈性的期望 108
7.5 管理在線上容量 110
7.6 容量相關的服務風險 112
7.6.1 彈性和彈性故障 112
7.6.2 部分容量故障 114
7.6.3 服務延遲風險 115
7.6.4 容量損傷和服務可靠性 117
7.7 容量管理風險 117
7.7.1 脆弱的套用架構 118
7.7.2 故障或監測數據不足 118
7.7.3 錯誤的容量決策 119
7.7.4 不可靠的容量擴張 119
7.7.5 不可靠的容量縮減 119
7.7.6 轉換速度不足 119
7.7.7 緩慢的容量管理決策 120
7.7.8 資源庫存耗竭 120
7.7.9 雲跳轉失敗 120
7.7.10 政策限制 120
7.8 安全性和服務可用性 121
7.8.1 服務可用性的安全風險 121
7.8.2 拒絕服務攻擊 122
7.8.3 DoS攻擊的防禦 123
7.8.4 量化安全攻擊對服務可用性的影響 123
7.8.5 建議 124
7.9 彈性擴張和收縮的架構 124
第8章 服務編排分析 126
8.1 服務編排定義 126
8.2 基於策略的管理 127
8.2.1 SLR的作用 128
8.2.2 服務可靠性和可用性的測量 128
8.3 雲管理 129
8.3.1 雲管理中快速彈性的作用 129
8.3.2 雲管理中雲突發的作用 129
8.4 服務編排在風險緩解中的作用 130
8.4.1 延遲 130
8.4.2 可靠性 130
8.4.3 監督管理 131
8.4.4 安全 131
8.5 小結 132
第9章 地理分布、地理冗餘和災難恢復 133
9.1 地理分布VS地理冗餘 133
9.2 傳統的災難恢復 134
9.3 虛擬化和災難恢復 135
9.4 雲計算和災難恢復 136
9.5 地理冗餘恢復模型 137
9.6 雲和傳統地理冗餘的附加益處 138
9.6.1 減少預期的宕機時間 138
9.6.2 緩解災難性的網路元件故障 138
9.6.3 減少未發現的和雙工元件故障 139
9.7 討論 139
第3部分 建議篇
第10章 套用、解決方案和責任認定 143
10.1 套用配置場景 143
10.2 套用的部署方案 144
10.3 系統宕機時間預期 145
10.3.1 傳統的系統宕機時間預期 145
10.3.2 虛擬化套用宕機時間預期 146
10.3.3 IaaS的硬體宕機時間預期 147
10.3.4 雲套用的宕機時間預算 149
10.3.5 總結 151
10.4 最終的端到端解決方案的注意事項 151
10.4.1 什麼是端到端解決方案 152
10.4.2 雲消費者的特定架構 153
10.4.3 數據中心冗餘 154
10.5 服務不佳的原因 155
10.6 解決方案服務的測量 157
10.7 管理可靠性和雲計算服務 160
第11章 構建可靠系統的建議 161
11.1 虛擬化和雲計算的架構 161
11.1.1 軟體映射到VM 161
11.1.2 服務負載分配 162
11.1.3 數據管理 162
11.1.4 軟體冗餘和高可用性機制 163
11.1.5 快速彈性 165
11.1.6 過載控制 165
11.1.7 共享 165
11.1.8 多租戶 166
11.1.9 同步套用 166
11.2 災難恢復 167
11.3 IT服務管理的注意事項 167
11.3.1 軟體升級和打補丁 167
11.3.2 服務遷移活動的影響分析 168
11.3.3 通過VM遷移緩解服務遷移活動的影響 168
11.3.4 服務遷移活動的測試 170
11.3.5 流程錯誤最小化 170
11.3.6 服務編排的注意事項 172
11.4 許多分散式雲VS少量巨型雲 172
11.5 硬體歸因宕機時間最小化 173
11.6 架構最佳化 178
11.6.1 可靠性和可用性標準 178
11.6.2 可訪問性最佳化 179
11.6.3 高可用性、持續性、可靠性和質量最佳化 181
11.6.4 災難恢復最佳化 181
11.6.5 操作注意事項 181
11.6.6 案例分析 182
11.6.7 理論最優的套用架構 186
第12章 虛擬化套用的可靠性設計 188
12.1 可靠性設計 188
12.2 調整DfR以適應虛擬化套用 189
12.2.1 硬體獨立性套用場景 189
12.2.2 伺服器整合套用場景 190
12.2.3 多租戶套用場景 191
12.2.4 虛擬化設備套用方案 191
12.2.5 雲部署套用場景 191
12.3 可靠性要求 191
12.3.1 通用可用性要求 192
12.3.2 服務的可靠性和延遲要求 192
12.3.3 過載要求 193
12.3.4 線上容量增長和收縮 194
12.3.5 (虛擬化)實時遷移要求 195
12.3.6 系統轉變活動的要求 196
12.3.7 地理冗餘和服務持續性要求 196
12.4 可靠性定性分析 197
12.4.1 虛擬化套用的SPOF分析 197
12.4.2 虛擬化套用的故障模式影響分析 198
12.4.3 容量的增長和收縮分析 198
12.5 可靠性定量預算與建模 199
12.5.1 可用性(宕機時間)建模 199
12.5.2 整體宕機時間預算及目標 200
12.5.3 管理維護預算分配 200
12.6 健壯性測試 200
12.6.1 基準健壯性測試 201
12.6.2 高級主題:虛擬化能更好地測試健壯性 204
12.7 穩定性測試 205
12.8 實際性能分析 206
12.9 可靠性路線圖 207
12.10 硬體可靠性 208
第13章 雲計算解決方案的可靠性設計 209
13.1 解決方案的可靠性設計 209
13.2 解決方案範圍和期望 210
13.3 可靠性需求 212
13.3.1 解決方案的可用性需求 212
13.3.2 解決方案的可靠性需求 212
13.3.3 災難恢復需求 213
13.3.4 彈性需求 214
13.3.5 明確的配置參數 214
13.4 解決方案建模與分析 215
13.4.1 雲數據中心部署的可靠性框圖 215
13.4.2 解決方案故障模式的影響分析 215
13.4.3 解決方案服務轉變活動的影響分析 216
13.4.4 雲數據中心的服務可用性(MP2)分析 216
13.4.5 聚合服務可用性(MP3)建模 216
13.4.6 恢復點目標分析 219
13.5 組件可靠性檢查 219
13.6 解決方案的測試和驗證 219
13.6.1 健壯性測試 220
13.6.2 服務的可靠性測試 220
13.6.3 地理冗餘測試 220
13.6.4 彈性與調度測試 221
13.6.5 穩定性測試 221
13.6.6 在用服務測試 221
13.7 實際性能的跟蹤和分析 222
13.7.1 雲服務的測量 223
13.7.2 解決方案的可靠性路線圖 224
13.8 解決方案可靠性的其他主題 225
13.8.1 服務等級協定 225
13.8.2 雲服務提供商的選擇 226
13.8.3 書面的可靠性計畫 226
第14章 總結 228
14.1 服務可靠性和服務可用性 229
14.2 故障問責和雲計算 230
14.3 服務宕機時間因素 232
14.4 服務可用性測量點 234
14.5 雲容量和彈性的考慮 235
14.6 最大化服務可用性 236
14.6.1 降低產品歸因的宕機時間 236
14.6.2 降低數據中心歸因的宕機時間 236
14.6.3 降低IT服務管理的宕機時間 236
14.6.4 降低災難恢復的宕機時間 237
14.6.5 最佳化雲服務可用性 237
14.7 可靠性努力 238
14.8 結束語 239
縮略語 240
參考文獻 244