《海量運維監控系統規劃與部署-(基於Linux+Nagios+Centreon+NagVis等)》是2015年清華大學出版社出版的圖書,作者是付哲。
基本介紹
- 書名:海量運維監控系統規劃與部署-(基於Linux+Nagios+Centreon+NagVis等)
- 作者:付哲
- 類別:IT運維/監控/Linux
- 出版社:清華大學出版社
- 出版時間:2015年11月1日
- 頁數:345 頁
- 定價:59 元
- 開本:16 開
- 裝幀:平裝
- ISBN:9787302409533
內容簡介,章節,
內容簡介
在大型企業,尤其是網際網路企業內部,在向公眾提供各類業務服務的同時,背後的IT服務支撐、運維的角色越來越重要。企業的很多產品從無到有,從小到大,持續經歷著經年累月的系統疊代、運行維護以及應急救援,在這些或大或小項目的生命周期中,固然離不開規劃、研發、測試、部署等角色的全程參與和配合,但運維在上線前的架構、系統、網路、資源規劃、部署及上線後質量、效率、成本管理方面更是發揮了不可替代的作用。
在日漸洶湧的網際網路浪潮和海量數據面前,無論是傳統企業還是新生的網際網路企業,普遍面臨著產品的快速疊代和用戶對於服務中斷的零容忍。運維人員手中缺乏靈活高效的工具來支持IT運維管理和業務的深度融合,現有的諸多監控平台僅僅支持監控指標的堆砌,很少能夠靈活反映業務關鍵節點的健康度,當企業的IT業務規模、訪問量和運行環境發生變化時,傳統IT運維監控平台的反應就稍顯笨拙。
另一方面,自動化在運維管理中的作用越來越大,傳統的人工檢查和巡檢方式已經無法滿足運維規模擴大的需求,需要從流程化、標準化、自動化去構建能夠支持海量數據的IT運維監控體系,提前預知故障。
幸運的是,面對用戶對於性能提升或者業務最佳化的需求,產品研發人員和運維人員之間的界限愈加模糊。不僅優秀的技術架構師、項目管理者、研發工程師、測試工程師等角色都在深入了解運維監控工作,而且各類具備開發背景的運維人員同樣運用自身的優勢,在不同角色間主動參與、換位思考、跨界工作,不斷推動運維監控工具的標準化、流程化、自動化。在此背景下,湧現出了眾多傑出的開源IT運維監控工具,形成了成熟的社區以及生態環境,這其中,就有以運行在Linux作業系統上的Nagios、Centreon和NagVis為佼佼者。
IT運維的核心工作是運行監控,本書即圍繞此主題展開。本書的名字叫《海量運維監控系統規劃與構建之道-基於Linux、Nagios、Centreon、Nagvis等》。海量一般適用於大型企業,其IT運維的特點是系統遵循行業標準,有業務流程驅動,具備大規模的架構、網路、系統、套用,並且從企業形象和安全的角度出發,對IT運維監控工作的數量和質量要求高於普通套用場景。“基於Linux、Nagios、Centreon、NagVis”是選擇並介紹如何管理這套開源監控系統,提升其運行的質量、效率、滿足企業定製需求並降低成本。本書詳細講述了以上兩者結合的方法論,重申了IT運維監控角色在IT服務中的核心地位,為如何高效便利地利用開源系統實施IT運維監控工作指明了方向。
本書從管理、技術雙視角對這套開源監控系統組合的功能進行了詳細介紹。
從面向服務的運維管理與業務連續性治理角度出發,本書介紹了如何選擇並使用最新的開源技術,搭建兼具低成本和高效益、高安全等級、符合ITIL最佳實踐的可擴展基礎監控框架,以及如何延伸擴展以因應各類規模的企業IT系統。
以自動化運維視角出發,重點講述了Linux、Nagios、Centreon和NagVis這4類開源系統的安裝配置,對自動化功能、監控告警、性能調優、協定、管理、最佳化,結合Centreon實現自動化配置管理等內容進行了全方位的深入剖析。從基礎著手,淺入深地重點講解Centreon監控系統這個開源軟體。從最簡單的安裝配置,到複雜的高級使用,詳細講解了監控項配置管理、系統管理、性能調優、架構設計,提供了大量的截圖案例,對即將構建Nagios+Centreon監控系統,或者已經在使用Nagios的用戶具有非常高的參考價值。
本書進一步印證了企業系統的安全性和開源系統的靈活性並不衝突,而是存在深度融合的可能。成熟的、經過眾多技術人員和使用者驗證的、社區活躍的開源系統並非想像中的不安全,不僅能夠被大規模運用在網際網路行業,同樣因其靈活可控且經過實踐驗證而適用於企業級場景。而開源的精神就是分享,讓更多人受益的同時,自身的水準也在持續提升。經常看到很多集成商和IT運維人員都在做監控平台,但這些監控系統的功能事實上驚人相似,重複勞動意義不大,閉門造車更無濟於事。開源的精神就是一個人共享出來,大家一起來使用、完善,達到眾人拾柴火焰高的效果。對整個行業來講,這塊的投入成本都會降低,對個體來講也是資源的整合。如果形成良性循環,行業的生態環境將會有很大程度的改善。本書作者在對安全性有極高要求的民航業工作,同時熱衷於開源技術,同樣也願意為開源貢獻一分微薄之力,希望更多的人能支持開源、參考開源。
今天,網際網路大潮催生了眾多卓越的網際網路企業,其用戶數及業務規模很容易達到海量級別,且企業內部對IT運維管理的質量水準也日益提出高標準和嚴要求,而IT運維管理的核心業務之一,IT運維監控工作就變得愈加重要。本書針對海量IT系統的特點,不僅提倡IT運維監控系統要基於Nagios和Centreon等開源系統量身定做,採取開源監控技術與企業IT服務和運維管理流程相結合的技術路線,而且從開源監控系統的規劃、管理、流程/規範、系統/平台、監控、告警、安全、部署實施、最佳化、考核、持續最佳化和提升等諸多方面來與大家詳細分享體會。
本書共分14章 涵蓋的內容主要包括:
1、帶領讀者深度了解 Nagios和Centreon如何在Linux系統上部署,以及如何與NagVis進行集成
2、從專家角度介紹如何管理Centreon、Nagios和NagVis,以及如何運用相關技巧最佳化這套組件以提升監控系統效率
3、運用大量腳本樣例和截圖,手把手幫助讀者解決在構建開源監控系統中遇到的各類實際問題
4、利用NagVis和RRDTool 集成開源監控系統的視圖功能
5、按部就班地協助用戶定製化實現既符合ITIL最佳實踐,又符合企業自身特點的企業級IT運維監控系統
本書適合在網際網路企業以及傳統企業內部,那些想了解、學習、規劃以及快速構建開源IT運維監控系統的人員閱讀,可以作為學習Nagios和Centreon的工具書,也適合想更深入學習Centreon的讀者。讓讀者真正理解Linux、Nagios、Centreon和NagVis這一套犀利武器,為海量IT運維監控工作保駕護航。
章節
1企業級IT監控系統概述
1.1什麼是IT運維監控系統
1.2開源監控軟體之崛起-Linux、Nagios、Centreon和NagVis
1.3Nagios簡介
1.3.1雲計算和海量運維監控的最佳選擇
1.3.2Nagios的主機檢測與服務檢測
1.3.3監控信息的提供者
1.3.4及時的通知機制
1.3.5從外部系統接收信息
1.3.6Nagios與Linux的關係
1.4Centreon簡介
1.4.1Centreon引擎
1.4.2為什麼要有Centreon引擎
1.5NagVis簡介
1.6為什麼要基於開源軟體構建IT運維監控系統?
2企業級IT運維監控系統的構建-從原始碼到企業級系統
2.1可供選擇的作業系統
2.1.1選用Red Hat Enterprise Linux作為作業系統
2.1.2選擇部署方式
2.2伺服器安裝規劃
2.2.1伺服器參數規劃
2.2.2伺服器存儲規劃
2.3Linux的邏輯卷(LVM)管理機制
2.3.1為什麼要使用LVM
2.3.2LVM基本概念
2.3.3作業系統分區劃分樣例
3配置VMWARE虛擬機
3.1新建虛擬機嚮導
3.2VMware的聯網模式簡介
3.2.1虛擬網路設備
3.2.2虛擬機聯網方式之橋接模式(bridged networking)
3.2.3虛擬機聯網方式之網路地址轉換(network address translation,簡稱NAT)模式
3.2.4虛擬機聯網方式之僅主機(host-only networking)模式
3.2.5關於虛擬機聯網方式中的DHCP服務
3.2.6選擇Nagios虛擬伺服器的聯網方式
3.3完成虛擬機創建嚮導並查看配置清單
4為虛擬機安裝RHEL作業系統
4.1引導選單
4.2作業系統安裝歡迎界面(語言及鍵盤布局)
4.3存儲設備選擇
4.4主機名與網路設定
4.5時區選擇
4.6磁碟分區設定
4.7劃分檔案系統
4.8安裝作業系統軟體
4.8.1格式化虛擬機硬碟
4.8.2選擇作業系統安裝類型
4.8.3安裝作業系統
4.8.4作業系統初始化配置
4.8.5創建作業系統賬戶
4.8.6設定作業系統時間
4.8.7設定Kdump
4.8.8作業系統網路配置
4.8.9yum源配置
5Nagios的安裝
5.1Nagios安裝前的準備工作
5.2創建Nagios用戶和組
5.3編譯並安裝Nagios
5.4安裝Nagios外掛程式
5.5配置Nagios的WEB用戶界面
5.6SELinux
5.7訪問用戶認證與授權
6NDOUtils安裝
6.1配置並編譯NDOUtils
6.2拷貝編譯後的檔案至運行目錄
6.3檢查MySQL的配置
6.4創建NDOUtils資料庫表
6.5配置NDOUtils
6.6添加ndo2db為系統服務
7Centreon的安裝與配置
7.1什麼是監控以及如何監控
7.1.1監控已經不再局限於基礎設施
7.1.2基礎設施監控
7.1.3應用程式監控
7.1.4SLA監控
7.1.5業務活動監控
7.2究竟什麼是運維監控
7.2.1運維監控的原則
7.2.2主動監控模式
7.2.3被動監控模式
7.3SNMP
7.4Centreon-不僅僅是包裝後的Nagios
7.4.1MERETHIS公司簡介
7.4.2Centreon的功能
7.5Centreon的架構
7.5.1系統組件
7.5.2數據存儲
7.5.3檢測命令
7.5.4調度進程
7.5.5其他兼容Centreon的調度引擎
7.5.6代理進程
7.6後台服務和定時任務
7.6.1centcore服務
7.6.2centstorage服務
7.6.3定時任務
7.7系統架構-簡潔及分散式
7.8捕獲SNNP trap告警信息
8Centreon的安裝
8.1安裝前提
8.2安裝Centreon監控系統中央伺服器
8.2.1系統軟體需求
8.2.2部署Centreon監控系統
8.3安裝後配置
8.4Centreon的WEB用戶界面
8.5Centreon的語言設定
8.6Centreon的資料庫連線配置
8.7通過Centreon激活Nagios監控
8.8安裝過程中的問題解決
8.8.1Export時顯示sudo相關錯誤
8.8.2在/var/log/messages中出現Warning: queue send error錯誤
9Centreon的管理
9.1Centreon的調度進程和代理進程
9.2Centreon對於Nagios調度進程的管理
9.2.1Files選項卡
9.2.2Check Options選項卡
9.2.3Log Options 選項卡
9.2.4Data選項卡
9.2.5Tuning選項卡
9.2.6Admin選項卡
9.2.7Debug選項卡
9.3Centreon對於NDOUtils代理進程的管理
9.3.1General選項卡:
9.3.2Database選項卡:
9.3.3Retention選項卡
9.4Centreon對於ndomod的管理
9.5Centreon的實時監控
9.5.1主機和主機組
9.5.2服務、服務組和元服務
9.5.3硬狀態和軟狀態
9.5.4狀態波動與狀態特殊震盪
10Centreon的實時監控
10.1專注於實時監控的Centreon
10.2Centreon的通用監控
10.3狀態總攬視圖
10.4全局健康視圖
10.5主機的實時監控
10.6主機的詳細信息視圖
10.7服務的實時監控
10.8在實時監控界面中進行監控項相關操作
10.8.1主機和服務操作概述
10.8.2處於告警狀態下的主機或者服務進行確認
10.8.3計畫停機
10.8.4添加備註
10.8.5對於調度任務的直接控制
11Centreon的配置
11.1Centreon的監控對象模型
11.2通用功能配置界面
11.3Nagios配置檔案的生成與部署
11.4宏、檢測命令與檢測外掛程式
11.5檢測命令與檢測外掛程式
11.6執行周期
11.7主機模板和服務模板
11.8主機和主機組
11.9主機的配置界面
11.9.1通用配置選項卡
11.9.2“關係”選項卡
11.9.3“數據處理”選項卡
11.9.4“主機擴展信息”選項卡
11.10主機組
11.11服務
11.11.1“服務配置”選項卡
11.11.2“關係”選項卡
11.11.3“數據處理”選項卡
11.12元服務
11.13被動監控模式和SNMP trap(SNMP陷阱)
11.14通知
11.14.1通知策略定義
11.14.2為主機和服務配置通知策略
11.15通知訊息聯繫人、聯繫人組以及聯繫人模板
11.15.1配置通知訊息聯繫人/用戶
11.16Commands通知命令
11.17Escalation-告警通知的升級
11.18性能圖形
11.18.1相關定義
11.18.2查看圖形與進一步分析
11.18.3配置性能圖形相關屬性
11.18.4配置性能曲線相關屬性
11.19利用性能圖形實現早期預警
11.20報表
12Centreon的管理和最佳化
12.1Centreon的管理選單
12.2通用選項
12.2.1Centreon的通用選項界面
12.2.2Centreon的監控選項界面
12.3CentStorage的相關配置
12.3.1性能數據的配置管理
12.3.2度量和計量
12.3.3監控性能指標的相關操作
12.4訪問控制列表(ACL)
12.4.1訪問控制列表的配置與管理
12.4.2訪問組
12.5調度進程的運行時統計信息
12.6Centreon監控平台的備份與恢復
13NagVis的安裝與配置
13.1NagVis的地圖
13.2NagVis的運作機制
13.3NagVis的安裝
13.4Nagvis的配置
13.4.1配置NagVis的默認參數
13.4.2配置NagVis的後台數據源
13.5NagVis地圖介紹
13.6NagVis的地圖的配置管理
13.7NagVis中背景圖片的管理
13.8配置NagVis的監控地圖
13.9設定NagVis圖示的超連結
13.10設定NagVis的WEB界面為自動登錄
14構建企業級IT運維監控系統
14.1IT服務管理和ITIL
14.2IT運維監控系統與ITIL的關係
14.2.1ITIL的產生與發展
14.2.2ITIL的管理框架簡介
14.2.3運用ITIL解決企業IT服務管理面臨的問題
14.3企業級IT運維監控系統的構建與實施
14.3.1諮詢與梳理步驟
14.3.2網際網路運維監控實踐
14.3.3提升監控及預警能力
14.3.4監控及預警質量的持續改進