SRE生存指南：系統中斷回響與正常運行時間最大化

站點可靠性工程（Site Reliability Engineering，簡稱SRE）是一個令人興奮的新興領域，它專注於如何確保系統穩定、可靠地運行。本書基於一個金字塔層次結構模型，深入淺出地介紹了關於SRE 的方方面面，涉及監控、事故回響與回顧、測試與發布、容量規劃、開發、用戶體驗設計，以及貫穿其中的溝通技巧。本書是SRE 工程師、DevOps 工程師、運維工程師和系統管理員不可或缺的參考資料；軟體架構師、軟體工程師、用戶體驗設計師也能從本書中獲取關於SRE 的相關知識。

1 簡介 1

SRE簡史 2

SRE是什麼 3

關於這本書 7

以SRE作為新項目的框架 9

小結 12

2 監控 13

為什麼要監控 13

檢測應用程式 16

度量什麼 23

SLIs、SLOs和錯誤預算簡介 26

錯誤預算 27

收集和保存監控數據 29

輪詢應用程式 29

推送應用程式 32

展示監控信息 35

任意查詢 35

圖表 36

儀錶板 37

聊天機器人 38

管理和維護監控數據 38

溝通 39

他們知道有監控嗎 39

小結 40

參考資料 41

3 事故回響 42

什麼是事故 43

什麼是事故回響 45

警報 47

什麼時候發起警報 48

怎么發出警報 49

向誰發出警報 54

隨時待命 55

溝通 57

事故指揮系統 59

在哪裡溝通 61

恢復系統 61

警報解除 63

小結 64

4 事後回顧 65

什麼是事後回顧 65

為什麼寫事後回顧報告 66

何時寫事後回顧報告 68

開展事故分析 69

如何寫事後回顧報告 71

總結 71

影響 72

時間 73

根本原因 74

行動項 75

附錄 77

停止事後指責 77

舉行事後回顧會議 79

分析以往的事後回顧報告 80

MTTR與MTBF 81

警報疲勞 81

討論過去的服務中斷 81

小結 82

參考資料 82

5 測試和發布 83

SRE生存指南：系統中斷回響與正常運行時間最大化

基本介紹

相關詞條

熱門詞條