大型網站運維:從系統管理到SRE

大型網站運維:從系統管理到SRE

《大型網站運維:從系統管理到SRE》是電子工業出版社出版圖書,作者是顧賢傑,徐贇,顏中冠

凝聚了網易10年百億級別大型系統運維經驗,從Google SRE到網易SRE的實踐之旅,中國技術團隊的實踐總結

基本介紹

  • 中文名:大型網站運維:從系統管理到SRE
  • 作者:顧賢傑 、徐贇 、顏中冠
  • 出版時間:2021年8月
  • 出版社電子工業出版社
  • 頁數:320 頁
  • ISBN:9787121416125
  • 定價:102 元
  • 開本:16 開
內容簡介,圖書目錄,作者簡介,

內容簡介

主要對傳統運維和SRE進行不同對比,讓大家了解運維工程師在實踐SRE理念時,關注的點和具體的實踐經驗

圖書目錄

第1章 關於SRE 1
1.1 為什麼會引入SRE 2
1.2 DevOps和SRE對比 5
1.2.1 DevOps的發展 5
1.2.2 SRE的發展 6
1.3 選擇SRE 8
1.4 SRE的未來 9
第2章 SRE在組織內部的定位 11
2.1 如何介入組織 12
2.2 SRE工作著力點 16
2.3 如何衡量工作 19
2.4 貢獻價值 22
第3章 監控建設 25
3.1 什麼是好的監控服務 25
3.1.1 穩定 25
3.1.2 準確 27
3.1.3 易用 29
3.2 監控系統的設計邏輯分析 29
3.2.1 數據生產 30
3.2.2 數據上報 31
3.2.3 數據處理 33
3.2.4 數據存儲 34
3.2.5 數據使用 36
3.3 典型監控套用場景 41
3.3.1 系統監控 41
3.3.2 套用監控 42
3.3.3 終端監控 44
3.3.4 秒級監控 45
3.3.5 監控大盤 46
3.3.6 鏈路監控 46
3.4 報警治理 47
3.5 容器監控 50
3.6 監控智慧型化 51
第4章 變更管理 53
4.1 變更管理機制 54
4.1.1 傳統運維的變更管理 55
4.1.2 DevOps的變更管理 57
4.1.3 SRE的變更管理 59
4.1.4 變更管理實踐總結 61
4.2 變更控制 62
4.2.1 如何建設好的變更控制 62
4.2.2 制定符合業務需求的變更控制機制 64
4.3 穩定性和疊代速度的權衡 66
4.4 變更風險控制 68
4.5 總結 70
第5章 異常回響 71
5.1 異常的定義 71
5.2 事故/事件定義 73
5.2.1 區分事件和事故 73
5.2.2 事故等級制度 74
5.3 異常回響流程 76
5.4 如何處理值班過程中的異常回響 79
5.5 應急溝通機制 82
5.6 關於線上問題的ROC 84
第6章 服務穩定性治理 88
6.1 SLI/SLO/SLA的制定和落地 88
6.1.1 SLI的制定和套用 89
6.1.2 SLO的計算和套用 90
6.1.3 SLA的計算和套用 91
6.2 故障預防 92
6.3 抑制不可控因素 95
6.4 故障演練 97
6.4.1 故障梳理 97
6.4.2 故障預案 98
6.4.3 混濁工程 98
6.5 故障自愈 100
6.6 業務MTTR 102
6.6.1 關於故障修復MTTR 102
6.6.2 關於故障解決MTTR 104
6.7 災備建設 105
6.8 總結 109
第7章 事故復盤 110
7.1 關於事故復盤 112
7.1.1 事故復盤初級階段 112
7.1.2 事故復盤中級階段 113
7.1.3 事故復盤成熟階段 113
7.2 如何提升事故復盤質量 115
7.2.1 事故復盤深度 116
7.2.2 事故復盤報告 118
7.3 事故分析的邏輯和原則 119
7.4 事故責任的劃分邏輯 123
7.5 事後跟進 126
7.6 基於事故/事件的學習 128
第8章 容量管理 131
8.1 容量管理的目標 131
8.2 容量管理的方法和策略 132
8.2.1 傳統評估方法 133
8.2.2 IT資源成本的構成 133
8.2.3 容量水位的定義 134
8.2.4 容量管理策略 137
8.3 容量分析系統建設 137
8.3.1 業務負載平台 137
8.3.2 巡檢管理平台 139
8.3.3 監控系統和CMDB系統 142
8.4 容量最佳化方式 143
8.4.1 業務容量最佳化 143
8.4.2 資源容量最佳化 143
8.4.3 架構容量最佳化 146
8.5 容量預案 151
8.6 總結 153
第9章 用戶體驗 154
9.1 外部用戶體驗和內部用戶體驗 155
9.1.1 外部用戶體驗 156
9.1.2 內部用戶體驗 158
9.2 影響用戶體驗的要素 159
9.3 外部用戶體驗的改進策略 162
9.4 內部用戶體驗的改進策略 165
9.4.1 數據兼容性 165
9.4.2 工作流程 167
9.4.3 執行效率 169
第10章 重要業務活動保障 172
10.1 重要業務活動的資源準備 173
10.1.1 容量規劃 173
10.1.2 資源交付規劃 175
10.1.3 技術最佳化 178
10.2 參與運營活動評估 181
10.3 重要業務活動穩定性預案 184
10.4 重要業務活動準備階段的工作重點 187
10.5 重要業務活動的變更執行要求 190
10.6 重要業務活動的運維人力 192
10.7 重要業務活動的收尾 193
第11章 運維操作基礎 196
11.1 網路基礎 197
11.1.1 ARP 197
11.1.2 路由 200
11.2 4/7層協定 204
11.2.1 4層協定 204
11.2.2 7層協定 208
11.3 核心參數調優 213
11.3.1 TCP網路堆疊記憶體 214
11.3.2 TCP連線數最佳化 215
11.3.3 TCP高並發最佳化 216
11.3.4 網路參數額外調整項 217
11.3.5 TCP擁堵算法 218
11.4 常見命令行 221
11.4.1 查看數據指標 222
11.4.2 網路數據包分析 223
11.5 配置管理工具 227
11.5.1 Ansible 228
11.5.2 CFEngine 229
11.5.3 Chef 231
11.5.4 Puppet 234
11.5.5 Salt 237
11.5.6 配置管理工具的匯總說明 240
11.5.7 雲環境下的配置管理工具演化 241
11.6 基礎設施即代碼 242
11.7 關於運維操作的未來 244
第12章 基礎組件運維 245
12.1 負載均衡中間件 245
12.1.1 算法邏輯的影響 246
12.1.2 附加特性的作用 252
12.1.3 負載均衡方案 254
12.1.4 負載均衡總結 256
12.2 訊息佇列中間件 258
12.2.1 訊息佇列方案的技術決策 259
12.2.2 訊息佇列的技術演化 261
12.3 快取中間件 262
12.3.1 快取中間件的技術關注點 263
12.3.2 快取中間件的選型策略 265
12.3.3 快取中間件的技術演化 270
12.4 資料庫 272
12.4.1 SQL資料庫技術的選擇 273
12.4.2 SQL資料庫的配置注意事項 276
12.4.3 NoSQL資料庫技術的選擇 279
12.4.4 時序資料庫技術 282
12.5 組件運維 283
第13章 雲計算和容器 284
13.1 雲計算基礎 285
13.1.1 雲計算平台運維 286
13.1.2 雲計算平台上的產品運維 288
13.2 虛擬化 290
13.3 容器 292
13.4 雲存儲 296
13.5 雲網路 299
13.6 混合雲 302
13.7 雲原生 305
13.7.1 雲原生的需求情況 305
13.7.2 雲原生的發展 307
13.7.3 雲原生的展望 309

作者簡介

顧賢傑
網易運維專家、SRE團隊Leader,10多年來一直聚焦網際網路業務運維和穩定性建設。在網際網路業務運維方面經驗豐富,曾負責網易部落格、相冊、即時通信、支付、電商、賬號系統、雲音樂等眾多產品的運維工作。在金融支付機房設計、高性能負載均衡建設、業務雙機房改造部署、災備建設等多個運維領域均有實踐。
徐 贇
網易資深運維開發工程師,運維開發團隊技術Leader。參與並主導杭研運維體系建設,包括監控、流程、發布、審批等運維領域。持續探索運維自動化、智慧型化、一體化建設,為網易雲音樂、網易傳媒、網易支付等上百個產品提供高效穩定的運維服務。
顏中冠
網易技術經理、資深架構師,有16年的網際網路一線研發和架構經驗。曾負責億級統一認證項目,主持網易賬號異地雙機房建設,以及網易雲計算業務中台搭建,負責多個對外億級商業化項目研發。

相關詞條

熱門詞條

聯絡我們