DevOps故障排除

DevOps故障排除

《DevOps故障排除》是2014年機械工業出版社出版的圖書,作者是[美] Kyle Rankin。

基本介紹

  • 中文名:DevOps故障排除
  • 作者:[美] Kyle Rankin
  • 出版社:機械工業出版社
  • ISBN:9787111462828
內容簡介,圖書目錄,作者簡介,

內容簡介

DevOps描述了開發者、質量保證人員(QA)以及系統管理員團結協作的一種工作環境,其中的合作比傳統環境中的合作更緊密。人們已經認識到DevOps在軟體快速部署和自動化方面的巨大價值,但是通常會忽略DevOps方法在解決整個團隊協作處理系統故障時的作用。遺憾的是,開發者、QA以及系統管理員三者所掌握的故障排除技術存在不小的差距,當系統出現問題時他們往往會相互責備。本書旨在縮小這類差距並引導所有的群組進行一系列標準的故障排除實踐,通過這些實踐他們可以作為一個團隊來處理絕大多數常見的Linux伺服器問題。
  儘管本書介紹的主題都是系統管理領域老生常談的話題,但是在DevOps環境中,處理網路問題、設定Web伺服器以及診斷高負載問題時也能看到開發者和QA的身影,即使他們可能並沒有Linux管理背景。本書不同於普通的系統管理問題診斷指南之處在於它的讀者對象和專注點。本書假設讀者可能不是Linux系統管理員,而是DevOps組織中一名有天賦的開發者或QA工程師,他們可能沒有很多系統級的Linux經驗。即便如此,如果你是一名系統管理員,本書也同樣適合你。本書還包含了讓高級系統管理員也能補充技能的故障排除技術—用一種易於理解的方法。
  在一個傳統的沒有DevOps原則的企業中,故障排除和開發工作都會不正常。當出現伺服器問題時,如果在會話中既有開發者也有系統管理員,可以預見他們每個人都會陷入自己的角色職責當中:系統管理員僅會查看伺服器資源和日誌;開發者將會等待來自團隊的不可避免的責備,批評他們那些或臃腫或bug叢生的代碼,與此同時開發者和系統管理員都會抱怨伺服器不穩定,功率不足;或者也許每個人都會調轉槍口,責備QA人員沒有在將產品部署到生產環境之前找到問題。實際問題一直都無法解決。

圖書目錄

譯者序
前言
第1章 故障排除的最佳實踐
1.1 劃分問題空間
1.2 協同工作時的良好溝通
1.2.1 電話會議
1.2.2 直接對話
1.2.3 電子郵件
1.2.4 實時聊天室
1.2.5 備用溝通方法
1.3 首選快速、簡單的測試,而不是緩慢、複雜的測試
1.4 多嘗試過去的解決方案
1.5 記錄問題和解決方案
1.6 了解改動
1.7 了解系統如何工作
1.8 謹慎使用Internet
1.9 抵制重啟
第2章章伺服器為什麼這么慢?耗盡了CPU、RAM和磁碟I/O資源
2.1 系統負載
2.2 使用top命令解決負載問題
2.2.1 了解top命令的輸出
2.2.2 解決高用戶時間的問題
2.2.3 解決記憶體不足的問題
2.2.4 解決高I/O等待時間問題
2.3 問題發生後的高負載處理
2.3.1 配置sysstat
2.3.2 查看CPU統計信息
2.3.3 查看RAM統計信息
2.3.4 查看磁碟統計信息
2.3.5 查看之前的統計信息
第3章 為什麼系統無法啟動?解決啟動問題
3.1 Linux啟動流程
3.1.1 BIOS
3.1.2 GRUB和Linux啟動載入程式
3.1.3 核心與初始RAM磁碟
3.1.4 /sbin/init
3.2 BIOS啟動順序
3.3 修復GRUB
3.3.1 沒有GRUB提示
3.3.2 階段1.5 GRUB提示
3.3.3 配置錯誤的GRUB提示
3.3.4 從活動系統中修復GRUB
3.3.5 通過恢復磁碟修復GRUB
3.4 禁止啟動界面
3.5 無法掛載根檔案系統
3.5.1 根核心參數
3.5.2 根設備更改
3.5.3 根分區損壞或失效
3.6 無法掛載二級檔案系統
第4章章為什麼磁碟無法寫入?解決磁碟滿或者磁碟損壞的問題
4.1 磁碟滿
4.1.1 保留區塊
4.1.2 找到占用空間最大的目錄
4.2 節點不足
4.3 檔案系統唯讀
4.4 修復損壞的檔案系統
4.5 修復軟RAID
第5章 伺服器宕機了?追蹤網路問題的根源
5.1 伺服器A不能和伺服器B通信
5.1.1 客戶端或者伺服器問題
5.1.2 鏈路接通了嗎
5.1.3 接口是否啟用
5.1.4 是否連通本地網路
5.1.5 DNS是否工作正常
5.1.6 是否可以路由到遠程主機
5.1.7 遠程連線埠是否開放
5.1.8 在本地測試遠端主機
5.2 網路速度較慢的故障排除
5.2.1 DNS的問題
5.2.2 通過traceroute查找網路緩慢的原因
5.2.3 使用iftop查看頻寬使用情況
5.3 抓取數據包
5.3.1 使用tcpdump
5.3.2 使用Wireshark
第6章 為什麼主機名無法解析?解決DNS伺服器的問題
6.1 DNS客戶端故障排除
6.1.1 未配置名稱伺服器或者無法訪問名稱伺服器
6.1.2 丟失查詢路徑或者名稱伺服器問題
6.2 DNS伺服器故障排除
6.2.1 了解dig的輸出
6.2.2 跟蹤DNS查詢
6.2.3 遞歸名稱伺服器的問題
6.2.4 什麼情況下沒有執行更新
第7章 為什麼無法收發郵件?追蹤郵件問題
7.1 追蹤郵件請求
7.2 了解郵件頭信息
7.3 郵件傳送的問題
7.3.1 客戶端無法與外部郵件伺服器通信
7.3.2 出站郵件伺服器不允許轉發
7.3.3 出站郵件伺服器無法與目標伺服器通信
7.4 接收郵件的問題
7.4.1 telnet測試無法連線
7.4.2 telnet可以連線,但訊息卻被拒絕了
7.4.3 研究郵件日誌
第8章 網站宕機了?追蹤Web伺服器問題
8.1 伺服器是否正在運行
8.1.1 遠程連線埠是否開放
8.1.2 在本地測試遠程主機
8.2 使用命令行測試Web伺服器
8.2.1 使用curl測試Web伺服器
8.2.2 使用telnet測試Web伺服器
8.3 HTTP狀態碼
8.3.1 1××信息狀態碼
8.3.2 2××成功狀態碼
8.3.3 3××重定向狀態碼
8.3.4 4××客戶端錯誤狀態碼
8.3.5 5××伺服器錯誤狀態碼
8.4 分析Web伺服器的日誌
8.5 獲取Web伺服器統計數據
8.6 解決常見的Web伺服器問題
8.6.1 配置問題
8.6.2 許可權問題
8.6.3 Web伺服器性能遲緩或不可用
第9章 為什麼資料庫這么慢?追蹤資料庫問題
9.1 查找資料庫日誌
9.1.1 MySQL
9.1.2 PostgresSQL
9.2 資料庫還在運行嗎
9.2.1 MySQL
9.2.2 PostgresSQL
9.3 獲得資料庫度量值
9.3.1 MySQL
9.3.2 PostgresSQL
9.4 識別查詢緩慢的問題
9.4.1 MySQL
9.4.2 PostgresSQL
第10章 這是硬體問題!診斷常見的硬體問題
10.1 硬碟驅動器無法工作
10.2 測試記憶體錯誤
10.3 網卡故障
10.4 伺服器過熱
10.5 電源供電故障

作者簡介

 Kyle Rankin,高級系統管理員、DevOps開發工程師、美國北灣地區Linux用戶組主席。他著有《The Official Ubuntu Server Book》、《Knoppix Hacks》和《Ubuntu Hacks》等書,不僅是《Linux Journal》雜誌享譽盛名的專欄作家,還是《PC Magazine》雜誌、TechTarget網站等多家媒體的撰稿人。Rankin經常出席SCALE(南加州Linux展會)、OSCON(O’Reilly開源大會)、Linux World Expo、Penguicon以及一些Linux用戶組會議,並就開源軟體發表演講。
  譯者簡介
  王東明,畢業於武漢大學,之後開始從事網路遊戲伺服器開發。先後開發過端游和頁游伺服器,現就職於某外企進行遊戲開發。業餘時間喜歡技術類書籍翻譯,以及移動遊戲開發。希望自己翻譯的書籍能夠為讀者帶來便利,也希望自己開發的遊戲能為大家帶來歡樂。
  王飛,武漢大學獲得學士學位,研究生就讀於中國科技大學。現就職於某國企網際網路部,從事網路運維開發工作。對於Linux伺服器運維有豐富的經驗。面對“大流量,高並發”的套用場景有著深刻的理解。擅長自動化運維工具的開發與使用,尤其是對報警相關流程的自動化有著獨到的見解。希望自己在運維開發相關方面的努力,能提高伺服器的運行質量,解放運維工作人員,同時也為企業節約成本。
  劉潔,北京郵電大學碩士學位。資深Web開發工程師和系統工程師,現就職於某搜尋公司,專注於計算廣告系統和移動搜尋算法研究相關工作,工程實踐經驗極為豐富。立志於不斷改進搜尋算法及策略,實現技術與商業目標之間的完美結合,提升搜尋在移動化聯網中的用戶體驗。

相關詞條

熱門詞條

聯絡我們