指標
可用性比率指標
一個IT資源的整體可用性通常用運行時間的百分比來表達。例如,一個總是可用的IT資源的運行時間為100%。
·描述——服務運行時間的百分比。
·測量值—全部運行時間/全部時間。
·頻率——每周,每月,每年。
·示例——至少99.5%的運行時間。
停用時間指標
這個服務質量指標是用來定義服務水平目標的最大和平均停用時間。
·描述——次停用的時長。
·測量值——停用結束的日期/時間一停用開始的日期/時問。
·頻率——每次有事件發生。
·雲交付模型——IaaS,PaaS,SaaS。
·示例——最長1小時,平均15分鐘。
影響因素
①性能:許多系統儘管在功能上可用,但性能水平卻因部分功能的喪失而下降。當一個網上購物站點的硬碟或集群處理器發生故障時,雖然仍然能夠接收訂單,但其整體服務效能卻會下降。當今系統的設計通常都可以做到當某些部件發生故障時,仍然可以繼續提供服務,但性能水平則會下降。
②功能:即使故障使系統不能按設計的正常狀態運行,但它還能夠提供某些價值。比如,當一個預定系統的交易
資料庫正在備份,可能暫時不能接受新的預定,但它仍然能夠檢查預定狀態並回復其他詢問。
設計規則
獨立性設計
獨立性是指當某個單個的系統出現問題時。它不會影響其他系統的運行。這裡有兩層意思:各個業務的服務線之間儘量相互獨立。不要使用共同的設備如存儲等。這是因為不同的業務服務所需要的維護時間是不同的。在每條服務線上,所有系統或套用單元,例如伺服器,應該在每一層之內(withinIayer)以及層與層之間(between Iayer)獨立運行。這樣運營團隊應該可以單獨地運行或停止某個
伺服器.而不影響其他伺服器的運作。
容錯設計
容錯設計是讓系統的某些部分出現故障的狀態下,使系統在降級運行(degradedoperating)的狀態下繼續運行的設計。這種運行可能在一個較低水平,其目的是讓平台不是完全失敗的。或是說作為一個整體的平台還沒有停止。這種較低水平是指平台的
吞吐量的降低。
回響時間減緩等。
犧牲峰值
這個設計對超大用戶的流量的場景非常重要。所有的服務平台的容量都是有限的。但實際流程超過預計容量的突髮狀況時,服務提供商寧願犧牲這些超過的流量.也要保證基本流量的暢通。比如,設計容量是100萬用戶,當用戶達到1 10萬時,要犧牲掉10萬用戶的訪問,以保證100萬基本用戶的正常使用。
在做這樣設計的時候。服務平台端(server-end)和客戶端軟體(cIient—end)都要有這樣的機制:對於這1 O萬用戶,他們一旦請求失敗後。就會放棄.而不是不斷地繼續發請求給服務平台造成壓力。
作用
①當需要使用時。
②故障環境下具有足夠的性能。
③故障環境下具有足夠的功能。
並不是所有系統都必須每天二十四小時可用,並保持其所有功能的最佳性能水平。可用性的基本作用是能夠讓可用系統的設計者設計出滿足企業可用性需求的系統,同時是負擔得起的。