集中監控

集中監控的目標就是要能夠通過管理與技術的套用,對基礎設施與IT基礎架構的運行情況進行監視,實現故障與異常的實時發現與通知;此外還可以通過對監控數據蒐集與整理,為容量管理、事件管理、問題管理、符合性管理提供分析的基礎,最終實現數據中心高可用性的目標。

集中監控概述,集中監控提升,集中監控的意義,集中監控的作用,集中監控的管理,容量管理,安全管理,採集層的集中化,處理層的集中化,展現層的集中化,監控工具,業務監控,虛擬化雲監控,影響分析模型,

集中監控概述

隨著全球信息化步伐的不斷推進,IT服務業的分工越來越精細和明確。作為一切IT服務的基礎,數據中心及相關基礎設施直接關係到IT服務系統能否正常、持續、穩定運行。任何一部分的效率降低或者故障,都將導致IT服務的可用性降低,輕則造成信息訪問不暢,重則帶來各種不可預估的重大損失。

集中監控提升

如何提升數據中心的可用性,已成為“高可用性IT服務”中的重要議題之一。作為保障數據中心可用性的第一道防線——“集中監控”可以快速幫助企業達成“高可用性”的目標。

集中監控的意義

根據ITIL的定義,所謂的“可用性”指的是:“一個配置項或IT服務根據需要履行協定職能的能力。可用性取決於可靠性、可維護性、可服務用性、性能和安全。可用性通常以百分比計算。這種計算通常基於協定服務時間和宕機時間”。高可用性IT管理是指:是指通過對IT架構及運維管理、基礎設施及管理、災備建設及運維、安全及管理等高可用性關鍵要素的改進與最佳化,提升IT系統的可用性,從而更好地保障業務持續運營和創新的過程。
在衡量可用性方面,具體又分為MTTR/MTBF/MTBSI等三個不同的指標。無論是MTBSI還是MTTR,均有一個重要的組成部分——“Detect time(偵測時間)”。可見“能否通過有效的監控管理,及時、有效地發現數據中心中各管理對象的故障”,已構成數據中心高可用性一個充分條件。

集中監控的作用

數據中心的管理對象主要包括基礎設施與IT基礎架構兩大部分。其中基礎設施包括供配電、UPS、空調、消防、安保、環境監測等機房系統;基礎架構包括網路設備、主機設備、存儲設備等IT設備。
集中監控的目標就是要能夠通過管理與技術的套用,對基礎設施與IT基礎架構的運行情況進行監視,實現故障與異常的實時發現與通知;此外還可以通過對監控數據蒐集與整理,為容量管理、事件管理、問題管理、符合性管理提供分析的基礎,最終實現數據中心高可用性的目標。

集中監控的管理

隨著技術的發展,有許多第三方監控工具開始出現,這些工具可以實現跨設備、跨平台、跨系統的集中數據採集,同時也能針對不同的監控對象設定相應的閥值,最終還可以實現統一的展現與告警。這些工具的出現,使得IT管理人員可以以一種更快速、更準確的方式發現被管理的組件所出現的故障。從而為故障的修復,以及服務的恢復爭取了寶貴的時間,提升了整個基礎架構的可用性。

容量管理

監控管理還會利用監控工具的性能採集功能,對一些關鍵套用的關鍵性能點進行監控,取得這些關鍵點的性能數據,用來評估IT系統的容量。當發現IT組件的性能的容量計畫存在偏差後,可以及時對這些組織的性能進行擴容,減少因性能不足而導致業務中斷的可能性。

安全管理

監控管理可以利用一些安全監控工具,去檢查組件的安全情況與運行中對合規要求的符合情況。如GDS的一些合作夥伴,其利用一些安全軟體,對防火牆、防病毒與入侵檢查設備進行實時日誌採集與安全分析,同時比對公司的安全策略或一些安全標準,幫助數據中心管理人員對數據中心運營中安全問題進行快速定位與問題分析。

採集層的集中化

從市場上的工具來看,還沒有哪個監控工具可以支持業界全線的IT產品,尤其是存儲與光傳輸設備這一塊。另外,不同客戶對監控的深度也要求迥異,有些客戶可能僅需要監控到網路、設備與系統層面,有些則需要對其資料庫、中間件甚至是套用進行監控,這也為監控採集層的集中帶來不少的難度。最後,不同客戶對成本與安全要求的不同,進一步提升了監控工具在採集層集中的難度。

處理層的集中化

許多設備的監控往往只能反映出某一台設備的可用性,卻不能完整的展現出整體的套用結構以及互相之間的影響關係,一旦一台核心的交換機發生故障後,管理員會發現,突然之間,滿世界都是各種各樣的告警,頭昏眼花,疲於奔命,卻不知道到底該如何解決。因此,如何能進行事件關聯,協助管理員能從各個孤立的事件中迅速定位,這是對監控管理的另一項挑戰。

展現層的集中化

隨著監控內容的增加,數據中心運營人員面臨的另外一個問題是如何能讓監控室的人員可以在眾多監控終端中迅速地發現系統報警,畢竟無法要求負責監控的人員7X24小時地盯著監控螢幕。所以監控終端的報警方式集中化,甚至是監控工具展現層的集中化就成為了監控管理所面臨的一項挑戰。

監控工具

監控管理的目的並不是監控工具本身,而是通過人工或技術的手段可以及時發現基礎設施與基礎架構上的問題,並按照既定的要求,將發現的問題按照既定管理流程與工具,調動相應的技術、管理人員介入,最終有效地解決數據中心中可能出現的事件、容量與可用性等問題。因此,如何讓數據中心工作人員清楚在監控工具中報出問題後,應如何執行後續管理流程,避免錯報、漏報,成為監控管理的一項重要挑戰。

業務監控

數據中心提供的是信息服務,也可以說是業務服務,獨立的對一台設備進行監控已經不能滿足未來的需求。對於管理人員來說,更關心的是數據中心提供的一個業務、一個服務是否能夠正常的運行,因此,未來的監控解決方案,需要更多的從業務及服務的層面出發,將獨立的物理設備,與業務緊密關聯,形成業務設備視圖,每個設備的可用性,都能夠反映到業務的可用性上。

虛擬化雲監控

虛擬化是未來數據中心的趨勢,但監控工具很難區分其監控的伺服器是一台物理機,還是一台虛擬機,也不可能知道硬體系統會對伺服器可用性存在潛在影響,而虛擬化平台的可用性直接影響到運行在其之上的虛擬伺服器的可用性。監控軟體處理的應該是主伺服器硬體出現的問題,但是如果主伺服器處於危險之中,那么任何在主機上運行的虛擬機也面臨同樣的問題,因此,虛擬化雲環境的高可用性方案也會是未來的趨勢之一。

影響分析模型

業務監控及虛擬化環境的基礎在於不同的設備間能夠建立清晰的管理,形成設備與設備的關係網,這就需要建立CMDB(配置管理資料庫),它清晰的描述了每一台設備的信息屬性,以及設備之間的關係。通過建立CMDB信息庫,形成業務的影響模型,例如,以下是對一個線上交易系統進行影響建模:
在這個交易系統的影響模型中,例如“存儲”發生故障,直接反應出的是服務不可用,同時“線上交易系統”、“資料庫伺服器”、“線上交易系統”皆為不可用狀態,根據被依賴關係進行分析,可以很直接的定位到故障原因,從而避免了逐個系統的進行故障分析。

相關詞條

熱門詞條

聯絡我們