SRE運維之道

SRE運維之道

《SRE運維之道》是2021年中國電力出版社出版的圖書。

基本介紹

  • 中文名:SRE運維之道
  • 作者:[美]David N.Blank-Edelman
  • 出版時間:2021年
  • 出版社:中國電力出版社
  • ISBN:9787519848453
  • 類別:計算機/網路類圖書
  • 開本:16 開
  • 裝幀:平裝-膠訂
內容簡介,圖書目錄,作者簡介,

內容簡介

聆聽工程師和其他領導人現場討論:在各種環境中實現SRE及其指導思想的不同方法。SRE與其他方法(例如DevOps)的關係。*前沿的專業技術很快將在SRE中十分常見。簡化實現SRE的*實踐和技術。重要但很少有人探索的SRE人性的一面。

圖書目錄

緒論 1
部分 SRE 實施
第1 章 SRE 中的上下文與控制 7
第2 章 面試站點可靠性工程師 17
面試101 17
誰參與 17
行業與大學 18
偏見 18
漏斗 18
SRE 漏斗 19
電話篩查 20
現場面試 20
帶回家的問題 22
面試SRE 的終思考 24
延伸閱讀 24
第3 章 你想建立一個SRE 團隊嗎? 25
出於正確的原因選擇SRE 26
面向數據驅動方法 28
對SRE 的承諾 29
做出關於SRE 的決定 30
第4 章 使用事件指標在規模上
提高SRE 31
救援到良性循環:你需要測量…… 31
指標回顧:如果指標無法找到…… 33
代理指標 34
修復債務 35
虛擬修復債務:在機器中驅除幽靈 36
實時儀錶板:SRE 的麵包和黃油 37
學習:終身學習 38
延伸閱讀 38
第5 章 與第三方合作的藝術 39
自建、購買或採用? 39
建立重要性 40
確定利益相關者 40
做出決策 41
承認現實 42
第三方作為“一等公民” 45
當他們倒下時,你也倒下 46
像服務一樣運行黑匣子 48
服務級別指標、服務級別目標和SLA 49
行動手冊:從預發布到生產 51
總結想法 58
第6 章 如何在沒有專用SRE 團隊的情況下套用SRE
原則 60
向SRE 求救(以及他們如何失敗) 60
按員工人數計算的規模問題 61
嵌入式SRE 61
你建造它,你就得運行它 62
部署平台 62
完成循環:自行運維 63
介紹生產工程團隊 64
一些實施詳細信息 66
開發人員的工作效率和健康與監控 66
使用事後分析解決跨團隊可靠性問題 68
統一的基礎設施和工具與自主和創新 69
獲得支持者 70
小結 72
延伸閱讀 73
第7 章 無SRE 的SRE 模式:Spotify 案例研究 74
蹣跚學步:2006 ?C 2007 75
前奏 75
關鍵收穫 76
測試版和正式發布:2008 ?C 2009 76
前奏 77
將可擴展性和可靠性帶到前沿 78
關鍵收穫 79
成功的詛咒:2010 80
前奏 80
新的所有權模型 81
核心服務正規化 82
部署時間的抉擇 83
輪值和警報 83
生成內部辦公室支持 84
解決剩餘首要問題 84
創建偵探 85
關鍵收穫 86
寵物和動物,以及敏捷:2011 87
前奏 87
形成不良習慣 88
打破那些壞習慣 88
關鍵收穫 89
無法擴展的系統:2012 89
前奏 89
手工運維碰壁 90
關鍵收穫 91
介紹小組內嵌運維:2013 ?C 2015 91
前奏 91
以信任為基礎 94
推動模式轉變 95
關鍵收穫 96
自主性與一致性的權衡:2015 ?C 2017 96
前奏 97
受益之處 98
權衡 98
關鍵收穫 99
未來:規模化的速度和安全 99
第8 章 大型企業SRE 的介紹 103
背景 103
介紹SRE 104
定義當前狀態 104
識別和教育利益相關者 106
展示業務案例 108
實施SRE 團隊 109
經驗和教訓 111
實施路線圖示例 112
總結反思 114
延伸閱讀 114
第9 章 從系統管理員到SRE 115
澄清術語 116
服務級別指示器 116
SLA 117
服務級別目標 117
為內部組件建立SLA 119
了解外部依賴關係 125
非技術解決方案 127
跟蹤可用性級別 128
處理罕見情況 133
小結 135
第10 章 為企業中的SRE 掃清道路 137
瑣事,SRE 的敵人 138
企業中的瑣事 141
孤島、佇列和工單 141
路上的孤島 142
工單驅動的請求佇列成本高昂 144
立即行動 146
從精益開始 146
儘可能多地擺脫交接 150
將剩餘的移交替換為自助服務 153
自助服務不僅僅是一個按鈕 154
自助服務以多種方式幫助SRE 155
運維作為服務 156
錯誤預算、限制瑣事和其他增強人類能力的工具 159
錯誤預算 159
瑣事上限 160
利用DevOps 的現有熱情 161
統一任務列表並保護容量 161
心理安全與人為因素 162
加入運動 163
第11 章 SRE 模式深受DevOps 的熱愛 164
模式1:Google 誕生的自動測試 165
模式2:在谷歌啟動和移交準備審查 167
模式3:創建共享原始碼存儲庫 170
小結 172
進一步閱讀和源材料 172
第12 章 DevOps 和SRE:來自社區的聲音 174
背景 174
方法 174
結果 175
回復 175
第13 章 Facebook 的生產工程師 191
第二部分 SRE 前沿領域
第14 章 起初,有混沌 215
系統問題 216
複雜性的經濟支柱 218
開始混沌 219
安全和複雜性的權衡 220
混沌變大 221
形式化 221
高級原則 222
常見問題 223
小結 225
第15 章 可靠性與隱私的交集 226
可靠性與隱私的交集概述 227
隱私工程的一般景觀 228
隱私和SRE:常見方法 230
減少辛勞 230
高效、慎重地解決問題 232
關係管理 233
早期干預與價值觀傳播 233
細微差別、差異和權衡 235
小結 236
延伸閱讀 236
第16 章 資料庫可靠性工程 237
資料庫可靠性工程師的指導原則 237
保護數據 238
自助縮放服務 238
資料庫不特殊 239
資料庫可靠性工程文化 240
可恢復性 241
恢復注意事項 241
恢復策略的剖析 242
構建基塊1:檢測 242
構建基塊2:多樣化的存儲 244
構建基塊3:各種工具箱 245
構建基塊4:測試 246
倡導恢復可靠性 247
持續交付:從開發到生產 247
協作 249
部署 249
遷移和版本控制 249
影響分析 250
遷移模式 250
倡導CD 251
為DBRE 提供支持 252
延伸閱讀 252
第17 章 數據耐久性工程 253
複製是基礎 253
備份 253
複製 254
真實世界的耐久性 257
保護 261
測試 261
保障 262
恢復 262
驗證 263
零的力量 264
驗證範圍 264
監視器的觀察者 266
自動化 266
漏洞之窗 266
運維人員疲勞 267
可靠性 267
小結 268
第18 章 SRE 機器學習概述 270
為什麼要使用機器學習輔助SRE 工作? 270
為什麼我的公司應該如何參與這項工作? 271
AI 套用方面的覺醒 272
什麼是機器學習? 273
我們所說的學習是什麼意思? 274
從西洋棋到圍棋:我們可以潛水有多深? 276
為什麼是現在?我們改變了什麼? 277
什麼是神經網路? 278
神經元和神經網路 278
應該如何以及何時套用神經網路? 280
我們可以使用哪些類型的數據? 280
實用機器學習 281
神經網路的熱門庫 281
實用機器學習示例 282
成功案例 296
延伸閱讀 297
我的GitHub 存儲庫 297
推薦書籍 297
第三部分 SRE 實踐和技術
第19 章 使文檔更好:將文檔集成到工作流程中 301
定義質量:好文檔是什麼樣子的? 302
SRE 文檔的功能要求 304
將文檔集成到工程的工作流中 306
谷歌的經驗:g3doc 和EngPlay 307
我們學到的知識 310
更好的文檔:實踐 311
為每個文檔類型創建模板 311
更好>:為質量設定現實標準 313
要求將文檔作為代碼評審的一部分 313
大膽地修剪你的文檔 314
對文檔進行表彰和獎勵 314
傳達文檔的價值 315
延伸閱讀 317
第20 章 主動教學和自學 319
主動學習 320
主動學習示例:不幸之輪 321
活動學習示例:事件管理(紙牌遊戲) 322
活動學習示例:SRE 教室 326
不能學習的代價 327
有效 SRE 團隊的學習氛圍 328
生產會議 328
故障報告 329
行動號召:放棄無聊的幻燈片 330
第21 章 服務級別目標的藝術與科學 331
為什麼要設定目標? 331
可用性 332
時間計量 333
事務 334
時間跨度的事務統計 334
關於評估 SLO 335
直方圖 338
百分位數的不足之處(和直方圖的優點) 339
思路的不同:自底向上的分析 SLO 339
延伸閱讀 340
第22 章 SRE 作為一種成功文化 341
SRE 是從哪裡來的? 341
SRE 的關鍵價值 343
保持網站運行 343
授權團隊“做正確的事情” 345
將運維視為工程問題 346
通過承諾(服務級別)實現業務成功 347
SRE 的關鍵啟用功能 348
監視、指標和 KPI 348
事件管理和應急回響 349
容量規劃和需求預測 349
性能分析和最佳化 349
預配、更改管理和速度 349
SRE 執行階段 350
第 1 階段:滅火/ 應急 350
第 2 階段:守門員 350
第3 階段:倡導者/ 合作夥伴 351
第4 階段:催化 351
不同階段的併發症 352
關注成功的細節 352
延伸閱讀 353
第23 章 SRE 反模式 354
反模式 1:站點可靠性運維 355
反模式2:人類盯著螢幕 356
反模式3:事件回響時一窩蜂 357
反模式 4:根本原因 = 人為錯誤 358
反模式5:丟包袱 360
反模式 6:馬戲團表演模式! 361
反模式7:警報可靠性工程 362
反模式8:雇用他人來遛狗 363
反模式 9:減速帶工程 364
反模式10:設計阻塞點 365
反模式11:批評太多,鼓勵不夠 366
反模式12:推遲生產環境發布 368
反模式 13:優先避免故障而不追求快速恢復(MTTF>MTTR) 369
反模式14:依賴性地獄 371
反模式15:笨拙的治理 372
反模式 16: 考慮不周的 SLO 373
反模式 17:讓人惱火的 API 接口 374
反模式 18:修復運維團隊 376
那么,這就足夠了嗎? 377
第24 章 不變的基礎架構和SRE 379
可擴展性、可靠性和性能 379
故障恢復 380
更簡單的運維 380
更快的啟動時間 381
已知狀態 381
自信地完成持續集成/ 持續部署 382
安全性 382
多區域操作 383
發布的工程學 383
構建基本鏡像 384
部署應用程式 385
缺點 385
小結 386
第25 章 可編寫腳本的負載均衡器 387
可編寫腳本的負載均衡器:新新人類 387
使困難變得簡單 389
分片感知路由 390
利用潛力 394
案例研究:休息時間 394
服務級別中間件 395
作為救援的中間件 397
服務級別中間件的 API 397
案例研究:WAF/Bot 緩解 397
避免災難 398
獲得狀態的技巧 398
案例研究:結賬佇列 400
展望未來,進一步閱讀 401
第26 章 服務格線化:微服務的牧人? 403
準備好擺脫全家桶了嗎? 404
微服務網路的當前狀態 405
服務格線來救援 407
邊三輪代理的好處 408
終一致的服務發現 409
可觀察性和報警機制 410
邊三輪性能影響 411
精簡庫和上下文傳播 412
配置管理(控制平面與數據平面) 413
實踐中的服務格線 414
Envoy 在 Lyft 的起源與發展 415
Lyft 運維的 Envoy 416
服務格線的未來 418
延伸閱讀 418
第四部分 SRE 的人性化一面
第27 章 SRE 的心理安全 421
成功團隊的主要指標 421
延伸閱讀 430
第28 章 SRE 認知工作 431
簡介 431
SRE 人員是做什麼的? 432
我們為什麼要關心從業者認知? 433
在不確定性和時間壓力下做出的關鍵決策無法重現 434
現代複雜系統中的人類表現:主題 434
關於圍繞事件的SRE 認知工作的觀察 435
每一次事件都可能更糟 435
在不確定的情況下做出犧牲性決策 436
正常系統的維修 437
關於複雜系統的專業知識 438
管理協調成本 439
SRE 是聯合認知系統中工作的認知主體 439
知識校準問題 440
心理模型 441
事件觸發個人重新校準 443
事件是集體重新校準的機會 443
這一切意味著什麼? 444
事件將繼續 444
事件將導致代價 445
事件模式將發生變化 446
事件指向特定的校準問題和位置 447
接下來會發生什麼? 447
構建案例庫 447
專注於使自動化成為 SRE 中的團隊合作者 448
解決校準問題 449
你能做什麼? 450
小結 451
參考 451
第29 章 勝過倦怠 454
定義精神障礙 456
多元化對話中缺少對精神障礙的照顧 457
純潔不是業務需求 458
光是思想和祈禱還不夠 459
全棧包容性 459
申請職務 460
面試過程 461
薪酬 462
效益 463
入職 464
工作條件 464
工作職責 466
培訓 466
晉升 467
離職 468
人人為我,我為人人 469
精神障礙資源 469
第30 章 反對輪值:一次論戰 471
輪值的理由 472
首先,不造成傷害 472
與 SRE 的相似性 472
與 SRE 的差異 473
推動工程師輪值的基本假設 474
輪值是急診醫學,而不是病房醫學 476
反駁意見 478
輪值給我們帶來的麻煩 479
實際解決方案 483
培訓 483
確定優先次序 483
提高在職績效 485
我們需要從根本上改變方法 486
嚴格抵制輪值(SAOC) 487
儘量避免輪值(WAOC) 488
二合一 489
小結 490
第31 章 複雜系統的輓歌 491
計算機和人類系統無法分離 492
消除一致性和級聯失敗 493
始終處於部分故障狀態 494
優先權倒置的新嘗試 495
沒有人預見到協調的代價 495
你的 healthcaregov 在那裡 496
延伸閱讀 497
第32 章 運維與社會活動之間的交集 499
之前、期間、之後 500
創建完美計畫 501
組織原則 502
管理危機:在崩潰時做出反應 503
書寫我們自己的歷史:了解到底發生了什麼 505
長尾效應:將行動轉化為革新 506
小結 509
第33 章 結語 511
作者介紹 513
封面介紹 513

作者簡介

David N. Blank-Edelman在大型多平台環境中的SRE、DevOps、系統管理領域擁有超過30年的經驗。他目前就職於Microsoft,是高級雲平台運維布道師,專注於站點可靠性工程。他是USENIX在全球舉辦的廣受歡迎的SREcon會議的聯合創始人之一,同時還是O’Reilly水獺書(《Automating Systems Administration with Perl》)的作者。

相關詞條

熱門詞條

聯絡我們