《SRE生存指南:系統中斷回響與正常運行時間最大化》是2019年9月電子工業出版社出版的圖書,作者是馮文輝。
基本介紹
- 書名:SRE生存指南:系統中斷回響與正常運行時間最大化
- 作者:馮文輝
- 譯者:9787121371769
- 出版社:電子工業出版社
- 出版時間:2019年9月
- 頁數:244 頁
- 定價:79 元
- 開本:16 開
內容簡介,目錄,
站點可靠性工程(Site Reliability Engineering,簡稱SRE)是一個令人興奮的新興領域,它專注於如何確保系統穩定、可靠地運行。本書基於一個金字塔層次結構模型,深入淺出地介紹了關於SRE 的方方面面,涉及監控、事故回響與回顧、測試與發布、容量規劃、開發、用戶體驗設計,以及貫穿其中的溝通技巧。本書是SRE 工程師、DevOps 工程師、運維工程師和系統管理員不可或缺的參考資料;軟體架構師、軟體工程師、用戶體驗設計師也能從本書中獲取關於SRE 的相關知識。
1 簡介 1
SRE簡史 2
SRE是什麼 3
關於這本書 7
以SRE作為新項目的框架 9
小結 12
2 監控 13
為什麼要監控 13
檢測應用程式 16
度量什麼 23
SLIs、SLOs和錯誤預算簡介 26
錯誤預算 27
收集和保存監控數據 29
輪詢應用程式 29
推送應用程式 32
展示監控信息 35
任意查詢 35
圖表 36
儀錶板 37
聊天機器人 38
管理和維護監控數據 38
溝通 39
他們知道有監控嗎 39
小結 40
參考資料 41
3 事故回響 42
什麼是事故 43
什麼是事故回響 45
警報 47
什麼時候發起警報 48
怎么發出警報 49
向誰發出警報 54
隨時待命 55
溝通 57
事故指揮系統 59
在哪裡溝通 61
恢復系統 61
警報解除 63
小結 64
4 事後回顧 65
什麼是事後回顧 65
為什麼寫事後回顧報告 66
何時寫事後回顧報告 68
開展事故分析 69
如何寫事後回顧報告 71
總結 71
影響 72
時間 73
根本原因 74
行動項 75
附錄 77
停止事後指責 77
舉行事後回顧會議 79
分析以往的事後回顧報告 80
MTTR與MTBF 81
警報疲勞 81
討論過去的服務中斷 81
小結 82
參考資料 82
5 測試和發布 83
測試 84
測試內容 87
發布 100
何時發布 101
回滾 104
自動化 104
持續 105
小結 106
6 容量規劃 107
企業財務簡介 108
為什麼需要規劃 110
風險管理與期望管理 111
定義一個規劃 112
當前的容量是多少 113
何時達到容量極限 115
應該如何更改容量 119
執行規劃 125
架構——性能變化的根源 126
技術作為利潤中心和採購 128
小結 128
7 構建工具 129
尋找項目 131
定義項目 133
RDD 133
設計文檔 136
項目計畫 138
例子 139
回顧會與站會 141
工作分配 142
構建項目 143
關於編寫代碼的建議 143
關注點分離 144
長期工作 145
筆記本 148
文檔與維護項目 149
小結 150
8 用戶體驗 151
設計和用戶體驗簡介 155
現實世界的互動設計 157
用戶測試 160
挑選一種體驗 161
設計測試 162
尋找要測試的人 162
開發者體驗 163
工具經驗 164
績效預算 164
安全性 166
身份認證 167
授權 168
風險概況 168
網路釣魚 169
ACM道德準則 170
小結 171
參考資料 172
9 網路基礎 173
網際網路 173
傳送一個HTTP請求 175
DNS 175
乙太網和TCP/IP 179
HTTP 186
curl與wget 189
網路監控工具 194
netstat 194
nc 195
tcpdump 196
小結 197
參考資料 197
10 Linux和雲基礎 198
Linux基礎 198
一切皆是檔案 199
進程是什麼 206
syscalls 207
構建自己的工具 213
雲基礎 214
虛擬機 215
容器 216
負載均衡 218
自動伸縮 219
存儲 219
佇列與發布/訂閱 220
伸縮單元 221
架構面試示例 222
小結 226
參考資料 226,
1 簡介 1
SRE簡史 2
SRE是什麼 3
關於這本書 7
以SRE作為新項目的框架 9
小結 12
2 監控 13
為什麼要監控 13
檢測應用程式 16
度量什麼 23
SLIs、SLOs和錯誤預算簡介 26
錯誤預算 27
收集和保存監控數據 29
輪詢應用程式 29
推送應用程式 32
展示監控信息 35
任意查詢 35
圖表 36
儀錶板 37
聊天機器人 38
管理和維護監控數據 38
溝通 39
他們知道有監控嗎 39
小結 40
參考資料 41
3 事故回響 42
什麼是事故 43
什麼是事故回響 45
警報 47
什麼時候發起警報 48
怎么發出警報 49
向誰發出警報 54
隨時待命 55
溝通 57
事故指揮系統 59
在哪裡溝通 61
恢復系統 61
警報解除 63
小結 64
4 事後回顧 65
什麼是事後回顧 65
為什麼寫事後回顧報告 66
何時寫事後回顧報告 68
開展事故分析 69
如何寫事後回顧報告 71
總結 71
影響 72
時間 73
根本原因 74
行動項 75
附錄 77
停止事後指責 77
舉行事後回顧會議 79
分析以往的事後回顧報告 80
MTTR與MTBF 81
警報疲勞 81
討論過去的服務中斷 81
小結 82
參考資料 82
5 測試和發布 83
測試 84
測試內容 87
發布 100
何時發布 101
回滾 104
自動化 104
持續 105
小結 106
6 容量規劃 107
企業財務簡介 108
為什麼需要規劃 110
風險管理與期望管理 111
定義一個規劃 112
當前的容量是多少 113
何時達到容量極限 115
應該如何更改容量 119
執行規劃 125
架構——性能變化的根源 126
技術作為利潤中心和採購 128
小結 128
7 構建工具 129
尋找項目 131
定義項目 133
RDD 133
設計文檔 136
項目計畫 138
例子 139
回顧會與站會 141
工作分配 142
構建項目 143
關於編寫代碼的建議 143
關注點分離 144
長期工作 145
筆記本 148
文檔與維護項目 149
小結 150
8 用戶體驗 151
設計和用戶體驗簡介 155
現實世界的互動設計 157
用戶測試 160
挑選一種體驗 161
設計測試 162
尋找要測試的人 162
開發者體驗 163
工具經驗 164
績效預算 164
安全性 166
身份認證 167
授權 168
風險概況 168
網路釣魚 169
ACM道德準則 170
小結 171
參考資料 172
9 網路基礎 173
網際網路 173
傳送一個HTTP請求 175
DNS 175
乙太網和TCP/IP 179
HTTP 186
curl與wget 189
網路監控工具 194
netstat 194
nc 195
tcpdump 196
小結 197
參考資料 197
10 Linux和雲基礎 198
Linux基礎 198
一切皆是檔案 199
進程是什麼 206
syscalls 207
構建自己的工具 213
雲基礎 214
虛擬機 215
容器 216
負載均衡 218
自動伸縮 219
存儲 219
佇列與發布/訂閱 220
伸縮單元 221
架構面試示例 222
小結 226
參考資料 226