《Google SRE工作手冊》是2020年中國電力出版社出版的圖書,作者是(美)貝特西、(美)尼爾、(美)戴維。
基本介紹
- 中文名:Google SRE工作手冊
- 作者:貝特西、尼爾、戴維
- 出版時間:2020年9月
- 出版社:中國電力出版社
- ISBN:9787519845858
內容簡介,圖書目錄,作者簡介,
內容簡介
你將會學到:如何在你無法完全掌控的雲環境裡運行可靠的服務。在你創建、監控和運行服務的過程中踐行服務質量目標。如何將現有運維團隊轉型為SRE,包括發掘出運營的*價值。從綠地或者棕地上啟動SRE的方法。
圖書目錄
序言
前言
第1章SRE與DevOps的關係
SRE是DevOps的一種實現方式
關於DevOps的背景情況
不再各自為政
意外乃兵家常事
變更要小步快跑
工具與文化休戚與共
準確的度量至關重要
關於SRE的背景情況
運維痛點也是軟體問題
以服務質量目標(SLO)為準繩
儘量減少瑣事
生產的智慧
確定本年度要自動化的工作
故障解決得越快,進度就越快
與開發人員同舟共濟(shareownership)
崗位雖不同,工具可統一
比較與對照
因地制宜才能事半功倍
片面、刻板的激勵機制會阻礙成功
解鈴還須系鈴人,勿怨他人
維護可靠性是專業化角色
毋庸斟酌是否,只需推敲時機
儘量在職業發展和物質激勵上一視同仁
小結
第一部分基礎篇
第2章實施SLO
SRE為何需要SLO
入門
可靠性目標和錯誤預算
面向SLI的度量
範例系統分析
SLI從規範到實現
度量SLI
使用SLI計算初始的SLO
選擇合適的時間視窗
獲取利益干係者的認同
建立錯誤預算策略
SLO和錯誤預算策略的文檔
儀錶板和報表
SLO目標持續改進
改進SLO質量
基於SLO和錯誤預算的決策
進階主題
用戶旅程建模
系統互動重要性分級
依賴關係建模
SLO鬆綁實驗
小結
第3章SLO工程案例研究
Evernote的SLO故事
Evernote為用SRE模型?
導入SLO開始旅程
打穿客戶與雲提供商之間的SLO牆
當前狀態
Home Depot的SLO
SLO文化項目
我們的第一套SLO
宣傳SLO
自動化VALET數據採集
SLO的發揚光大
VALET套用於批處理套用
VALET套用於測試
未來的願景
結論
小結
第4章監控
監控策略必備特性
速度
計算
接口
告警
監控數據源
範例
管理監控系統
實現配置即代碼(Configuration asCode)
鼓勵一致性
倡導鬆散耦合
度量指標的意圖
預期的變更
依賴關係
飽和度
服務流量狀況
實施有意圖的度量指標
測試告警邏輯
小結
第5章基於SLO的告警
告警設定考量
重大事件告警方法
1:目標錯誤率≥SLO值
2:延長告警時間視窗
3:延長告警觸發前的持續時間
4:根據燃燒率發出告警
5:基於多個燃燒率的告警
6:基於多個視窗、多個燃燒率的告警
低流量服務和錯誤預算告警
生成人工流量
組合多個服務
改變服務和基礎設施
降低SLO或延長時間視窗
極端的可用性目標
擴大告警範圍
小結
第6章消除瑣事
什麼是瑣事?
度量瑣事
瑣事分類法
業務流程
生產中斷
產品發布
遷移
工程成本和容量規劃
不透明架構的故障排查
瑣事管理策略
識別和度量瑣事
工程師撤出瑣事系統
拒絕瑣事
使用SLO消減瑣事
從半自動界面開始
提供各種自助服務方法
獲得管理層和同事的支持
大力推廣消減瑣事
從小處著手和改善
增加一致性
評估自動化的風險
自動化回響瑣事
使用開源和第三方工具
使用反饋進行改進
實例研究
案例研究1:利用自動化減少數據中心的瑣事
背景
問題陳述
我們的決策
首個設計方案:修復Saturn線卡
實施
第二個選代的設計:Saturn線卡修復vsJupiter線卡修復
實施
經驗教訓
案例研究2:退役檔案伺服器後端的主目錄
背景
問題陳述
我們的決策
設計與實施
重要組件
經驗教訓
小結
第7章簡單性
度量複雜性
簡單性是端到端的,適合由SRE來負責
案例研究1:端到端API的簡單性
案例研究2:項目生命周期複雜性
回歸簡單性
案例研究3:簡化廣告展示系統的蜘蛛網
案例研究4:在共享平台上運行數百個微服務
案例研究5:pDNS不再依賴於自身
背景
小結
第Ⅱ部分實踐篇
第8章on-call輪值
回顧第一本SRE書中的“on-call輪值”
Google內外的on-call部署模式例
Google:組建一個新的團隊
Evernote:在雲端尋找我們的足跡
實戰的實施細節
剖析告警壓力
on-call靈活性
on-call團隊士
小結
第9章事故回響
Google的事故管理
事故指揮系統
事故回響中的主要角色
案例分析
案例1:軟體bug—燈亮著,但家裡沒人
案例2:服務故障——儘可能多地進行快取
案例3:停電——閃電不會兩次擊中同一個地方嗎?
案例4:PagerDuty的事故回響
把最佳實踐付諸實施
事故回響培訓
前期準備
演習
小結
第10章事後總結:從失敗中學習
案例分析
糟糕的事後總結
為什麼這是一份差勁的事後總結?
優秀的事後總結
這份事後總結好在哪?
組織激勵
樹立和加強對事不對人的模式
獎勵事後總結的成果
公開分享事後總結
面對事後總結文化的淡化
……
作者簡介
Betsy Beyer,Niall Richard Murphy,David K. Rensin,Kent Kawahara和Stephen Thorne是Google網站可靠性工程組織里曾經和現任的成員,他們的職責是關懷和護理Google的生產系統。