專利背景
隨著信息技術的反展,基於計算機軟體技術構建的業務系統在社會經濟運行中的重要性越來越高,特別是在金融、通信、醫療和政務等行業。例如銀行的業務系統故障,儲蓄和貸款等最基本的金融業務將無法展開;證券業務系統故障,每天數百億的股票和基金交易將無法進行;醫療業務系統故障,醫生將無法查閱病人的歷史病例和檢查數據,甚至不能開處方。業務系統的穩定運行和持續可用,對於各行業順利開展各種業務是不可或缺的,因此能夠對業務系統的可用性進行正確評估是極為重要的。
圖1為業務系統網路拓撲圖。如圖1所示,該業務系統包括櫃檯終端、接入交換機、核心交換機、伺服器區接入交換機和用於提供業務服務的業務系統伺服器。當評估圖1所示的業務系統的可用性時,2011年3月前技術中通常是分別對構成業務系統的多個節點,即櫃檯終端、接入交換機、核心交換機、伺服器區接入交換機和業務系統伺服器的性能指標或故障狀態進行評估,並通過將評估結果進行簡單累加來評估當前業務系統的可用性。
當利用上述方法評估系統的可用性時,僅將業務系統的可用性作為多個節點的簡單集合,並未考慮節點之間的關聯性。但在實際套用中,例如圖1中的第一核心交換機A1和第二核心交換機A2組成雙核心冗餘結構,如果第一核心交換機A1宕機,則只會導致第一業務系統伺服器H、第二業務系統伺服器N和第三業務系統伺服器M的可用性存在隱患;如果第二核心交換機A2也宕機,則會導致第一業務系統伺服器H、第二業務系統伺服器N和第三業務系統伺服器M完全不能訪問;如果第二伺服器區接入交換機C與第二業務系統伺服器N之間的鏈路斷開,則只有第二業務系統伺服器N無法訪問,而第一業務系統伺服器H和第三業務系統伺服器M可正常運用。可以看出,業務系統中節點間的關係與系統可用性之間存在密切關聯,按照上述2011年3月前技術中的評估方法不能夠準確獲知業務系統的當前真實狀態。
發明內容
專利目的
《業務系統可用性評估方法及系統》提供一種業務系統可用性評估方法及系統,用以實現業務系統可用性的有效、準確評估。
技術方案
《業務系統可用性評估方法及系統》提供的業務系統可用性評估方法包括:監測業務系統中網元故障事件,根據預設規則獲取網元的健康分值,所述網元包括節點和鏈路;根據節點在業務系統路徑中出現的次數獲取節點的權重;根據鏈路關聯節點獲取鏈路的權重;根據所述網元的健康分值和所述網元的權重按照預定算法評估業務系統可用性。
《業務系統可用性評估方法及系統》提供的業務系統可用性評估系統包括:健康分值計算模組,用於監測業務系統中各網元故障事件,根據預設規則獲取網元的健康分值,所述網元包括節點和鏈路;節點權重計算模組,根據節點在業務系統路徑中出現的次數獲取節點的權重;鏈路權重計算模組,用於根據鏈路關聯節點獲取鏈路的權重;業務系統可用性評估模組,用於根據所述網元的健康分值和所述網元的權重按照預定算法評估業務系統可用性。
改善效果
根據《業務系統可用性評估方法及系統》的業務系統可用性評估方法及系統,由於不僅通過監測節點和鏈路的故障事件獲取網元的健康分值,還通過分析業務系統中各網元之間的關聯性,即業務系統的路徑,根據各網元對於業務系統可用性的影響度的不同為各網元設定不同的權重,並結合
網元的權重及其健康分值來評估業務系統的可用性,所以能夠根據業務系統的具體架構對其當前可用狀態進行有效、準確的評估。
附圖說明
圖1為業務系統網路拓撲圖。
圖2為《業務系統可用性評估方法及系統》業務系統可用性評估方法的流程圖。
圖3為廣度優先遍歷算法的遍歷流程示意圖。
圖4為該發明業務系統可用性評估系統的結構示意圖。
技術領域
《業務系統可用性評估方法及系統》涉及通信技術領域,尤其涉及業務系統可用性評估方法及系統。
權利要求
1.一種業務系統可用性評估方法,其特徵在於,包括:監測業務系統中網元故障事件,根據預設規則獲取網元的健康分值,所述網元包括節點和鏈路;根據節點在業務系統路徑中出現的次數獲取節點的權重;根據鏈路關聯節點獲取鏈路的權重;根據所述網元的健康分值和所述網元的權重按照預定算法評估業務系統可用性。
2.根據權利要求1所述的業務系統可用性評估方法,其特徵在於,所述監測業務系統中各網元故障事件,根據預設規則獲取網元的健康分值的步驟包括:建立網元健康評估列表,所述網元健康評估列表包括網元故障事件和與所述網元故障事件對應的評分原則;監測網元故障事件並通過查詢所述網元健康評估列表獲取故障事件對應的評分原則;根據所述評分原則獲取網元的健康分值。
3.根據權利要求1所述的業務系統可用性評估方法,其特徵在於,所述根據節點在業務系統路徑中出現的次數獲取網元的權重的步驟包括:獲取業務系統路徑;若檢測獲知某一路徑未包含其他任一路徑的全部節點,則確定所述路徑為有效路徑;根據節點出現在所述有效路徑中的次數獲取節點的權重。
4.根據權利要求1所述的業務系統可用性評估方法,其特徵在於,所述根據鏈路關聯節點獲取鏈路的權重的步驟包括:根據鏈路關聯的兩個節點的權重的平均值或其中任一節點的權重確定鏈路的權重。
5.根據權利要求1所述的業務系統可用性評估方法,其特徵在於,所述根據所述網元的健康分值和所述網元的權重按照預定算法評估業務系統可用性的步驟包括:根據網元的健康分值和網元的權重獲取路徑健康分值;根據所述路徑健康分值計算所述業務系統的可用性分值。
6.一種業務系統可用性評估系統,其特徵在於,包括:健康分值計算模組,用於監測業務系統中各網元故障事件,根據預設規則獲取網元的健康分值,所述網元包括節點和鏈路;節點權重計算模組,根據節點在業務系統路徑中出現的次數獲取節點的權重;鏈路權重計算模組,用於根據鏈路關聯節點獲取鏈路的權重;業務系統可用性評估模組,用於根據所述網元的健康分值和所述網元的權重按照預定算法評估業務系統可用性。
7.根據權利要求6所述的業務系統可用性評估系統,其特徵在於,所述健康分值計算模組包括:網元評估列表建立單元,用於建立網元健康評估列表,所述網元健康評估列表包括網元故障事件和與所述網元故障事件對應的評分原則;網元監測單元,用於監測網元故障事件並通過查詢所述網元健康評估列表獲取故障事件對應的評分原則;健康分值計算單元,用於根據所述評分原則獲取網元的健康分值。
8.根據權利要求6所述的業務系統可用性評估系統,其特徵在於,所述節點權重計算模組包括:路徑獲取單元,用於獲取業務系統路徑;路徑檢測單元,用於若檢測獲知某一路徑未包含其他任一路徑的全部節點,則確定所述路徑為有效路徑;節點權重獲取單元,用於根據節點出現在所述有效路徑中的次數獲取節點的權重。
9.根據權利要求6所述的業務系統可用性評估系統,其特徵在於,所述鏈路權重計算模組包括:相關節點權重獲取單元,用於獲取鏈路關聯的兩個節點的權重;鏈路權重獲取單元,用於根據鏈路關聯的兩個節點的權重的平均值或其中任一節點的權重確定鏈路的權重。
10.根據權利要求6所述的業務系統可用性評估系統,其特徵在於,所述業務系統可用性評估模組包括:路徑健康分值獲取單元,用於根據網元的健康分值和網元的權重獲取路徑健康分值;業務系統可用性分值評估單元,用於根據所述路徑健康分值計算所述業務系統的可用性分值。
實施方式
圖2為《業務系統可用性評估方法及系統》業務系統可用性評估方法的流程圖。如圖2所示,該業務系統可用性評估方法包括:
步驟S100,監測業務系統中網元故障事件,根據預設規則獲取網元的健康分值,所述網元包括節點和鏈路;
具體地,以圖1中所示的業務系統為例,對該業務系統可用性評估方法進行說明。如圖1所示的拓撲結構包括以下節點:第一接入交換機D、第二接入交換機E、第三接入交換機F、第四接入交換機G、第一核心交換機A1、第二核心交換機A2、第一伺服器區接入交換機B、第二伺服器區接入交換機C、第一業務系統伺服器H、第二業務系統伺服器N和第三業務系統伺服器M。圖1中包括分別對應於三個業務系統伺服器的業務系統。各業務系統的網元除包括以上節點中的相關節點之外,還包括任意兩個相連節點之間的鏈路,例如第一接入交換機D與第一核心交換機A1之間的鏈路和第一核心交換機A1與第一伺服器區接入交換機B之間的鏈路等。
對圖1中的各網元進行監測,以獲知其是否發生故障事件,例如設備CPU利用率超過閾值事件、接口閃斷事件和乙太網地址解析協定(ARP)攻擊等故障事件,所需進行監測的故障事件類型可預先設定。獲知各網元是否發生預定的各種故障事件後,可根據預設規則獲取網元的健康分值。
步驟S200,根據節點在業務系統路徑中出現的次數獲取節點的權重;
具體地,在圖1中所示的業務系統中,櫃檯終端A通過四個接入交換機接入業務系統(圖1中以通過第二接入交換機E接入該業務系統為示例),要獲取一業務系統伺服器H提供的業務服務時,即需形成櫃檯終端A至第一業務系統伺服器H的路徑。符合上述條件的路徑有16條,與各接入交換機對應的有4條,以第二接入交換機E為例,包括:第一路徑(櫃檯終端A、第二接入交換機E、第一核心交換機A1、第一伺服器區接入交換機B、第一業務系統伺服器H);第二路徑(櫃檯終端A、第二接入交換機E、第二核心交換機A2、第一伺服器區接入交換機B、第一業務系統伺服器H);第三路徑(櫃檯終端A、第二接入交換機E、第二核心交換機A2、第一核心交換機A1、第一伺服器區接入交換機B、第一業務系統伺服器H);第四路徑(櫃檯終端A、第二接入交換機E、第一核心交換機A1、第二核心交換機A2、第一伺服器區接入交換機B、第一業務系統伺服器H)。可以得知,在全部的16條路徑中,第二接入交換機E出現在其中4條路徑中,則第二接入交換機E對於由業務系統伺服器H提供業務服務的業務系統的權重是0.25。
步驟S300,根據鏈路關聯節點獲取鏈路的權重;
具體地,與節點相類似,不同節點間的鏈路在業務系統中所占的權重也不相同,並且兩節點之間的鏈路的權重取決於該兩個關聯節點的權重。該鏈路權重值例如為兩節點權重的平均值或為其中任一節點的權重,優選地,根據鏈路關聯的兩個節點中距離業務系統中的業務系統伺服器較遠的節點獲取鏈路的權重,例如計算第二接入交換機E與第一核心交換機A1之間的鏈路權重時,由於第二接入交換機E相對於第一核心交換機A1距離第一業務系統伺服器H較遠,因此應取第二接入交換機E的權重作為該鏈路的權重。
步驟S400,根據所述網元的健康分值和所述網元的權重按照預定算法評估業務系統可用性。
具體地,根據在步驟S100中獲取的業務系統中各網元的健康分值、在步驟S200中獲取的節點的權重和在步驟S300中獲取的鏈路的權重按照預定算法來評估業務系統的可用性。其中,該預定算法可包括多種,例如將業務系統中各網元健康分值與其對應的網元權重的乘積進行累加,或根據網元健康分值及網元權重計算業務系統中的各路徑健康度,並綜合業務系統中的全部路徑的健康度計算業務系統的可用性。
根據上述實施例的業務系統可用評估方法,由於不僅通過監測節點和鏈路的故障事件獲取網元的健康分值,還通過分析業務系統中各網元之間的關聯性,即業務系統的路徑,根據各網元對於業務系統可用性的影響度的不同為各網元設定不同的權重,並結合網元的權重及其健康分值來評估業務系統的可用性,所以能夠根據業務系統的具體架構對其當前可用狀態進行有效、準確的評估。
進一步地,在上述實施例的業務系統可用評估方法中,所述監測業務系統中各網元故障事件,根據預設規則,獲取網路網元的健康分值的步驟包括:
步驟S101,建立網元健康評估列表,所述網元健康評估列表包括網元故障事件和與所述網元故障事件對應的評分原則;
步驟S102,監測網元故障事件並通過查詢所述網元健康評估列表獲取故障事件對應的評分原則;
步驟S103,根據所述評分原則獲取網元的健康分值。
具體地,表1為健康評估列表的一個示例。
| OID(網管SNMP協定用於區分事件類型的唯一標識符) | |
| | |
| 1.3.614.1.4881.1.1.10.2.21.2.4 | 根據超過的閾值,分為嚴重、重要、一般告警級別。分別下降50分、30分、20分。以下"根據告警級別"的,下降分數的規則和該規則相同。 |
| 1.3.6.1.4.1.488LL1.10.2.39.65535.13 | |
| 1.3.6.1.4.1.4881.1.1.1001.1 | |
| 1.361.4.1.4881.1.1.1001.2 | |
| 1.3.6.1.4.1.4881.1.1.1000.3 | |
| 1.3.6.1.4.1.4881.1.1.10004 | |
| 1.3.6.1.4.1.4881.1.1.10.2.300.1 | |
| 1.3.6.14.1.4881.1.1.10.3.333 | |
| 1.3.6.1.4.1.4881.1.1.10.2.200.10 | |
| L3.6.14.1.4881.1.1.10.2.200.11 | |
如表1所示,健康分值的初始值為100分,各故障事件具有與其對應的扣分分值,例如當某一網元發生電源故障時,健康分值下降50分,則健康分值為50分。
當網元關聯多個故障事件時,若該多個故障事件屬於相同類型,則只取該多個故障事件中等級最高的一個(即扣除分數最多的一個)來計算網元的健康分值。其中,相同類型的故障是指通常由同一個故障源導致的多種故障,例如表1中所示的ARP攻擊事件、ARP拒絕服務攻擊和ARP掃描攻擊屬於同一類型的故障事件;鏈路DOWN、設備不可達事件和拓撲關鍵路徑不可達屬於同一類型的故障事件;接口接收速率閾值越界事件、接口傳送速率閾值越界事件和流量連續超過閾值屬於同一類型的故障事件。採用這種方式能夠避免在網元因一個故障源產生多個故障時,扣除其過多的健康分值,從而導致結果不準確。
當網元關聯多個不同類型的故障事件時,則對該多個故障事件的扣分分值進行由高到低的排序,並採用下述公式1累加這些故障事件導致的健康分值扣分,直至健康分值降至0分。
網元健康分值=100-S1-S2/2-......-Sn/n公式1
在上述公式1中,n為網元關聯的不同類型的故障事件的數目,Sn為第n個故障事件所需扣除的健康分值,並且滿足S1≥S2≥...≥Sn。例如:網元有3個不同類型的故障事件,該3個故障事件分別導致的扣分分值為30分、20分和10分,則該網元的健康分值為100-30-20/2-10/3=56.7分。
雖然這裡例示了按照公式1計算網元的健康分值,但也可採取其他方式:例如用100分直接減去多個故障事件的扣分分值,但由於按照這種方式計算的健康分值有較大可能性為0,對於健康分值為0的多個網元無法有效區分其當前狀態差異,因此優選採用上述公式1計算網元的健康分值,能夠更為直觀地反映網元的健康狀況。
進一步地,在上述實施例的業務系統可用性評估方法,所述根據節點在業務系統相關路徑中出現的次數獲取網路網元的權重的步驟包括:
步驟S201,獲取業務系統路徑;
步驟S202,若檢測獲知某一路徑未包含其他任一路徑的全部節點,則確定所述路徑為有效路徑;
步驟S203,根據節點出現在所述有效路徑中的次數獲取節點的權重。
具體地,例如採用2011年3月前技術中的“廣度優先遍歷算法”獲取業務系統的全部路徑。圖3為廣度優先遍歷算法的遍歷流程示意圖,其中所標示的數字代表算法對節點的遍歷順序,其中標號為1的節點為起點。如圖3所示,廣度優先遍歷的順序是分層的、在每一層上儘量多地訪問所有“兄弟”節點。
具體地,由於按照上述廣度優先遍歷算法獲取業務系統的全部路徑後,該全部路徑會包含一些無效路徑,例如在如圖1中所示的第一業務系統伺服器H對應的業務系統中,第三路徑(櫃檯終端A、第二接入交換機E、第二核心交換機A2、第一核心交換機A1、第一伺服器區接入交換機B、第一業務系統伺服器H)和第四路徑(櫃檯終端A、第二接入交換機E、第一核心交換機A1、第二核心交換機A2、第一伺服器區接入交換機B、第一業務系統伺服器H)分別包含了第一路徑和第二路徑中的全部網元,只是在其基礎上增加了第一核心交換機A1與第二核心交換機A2之間的鏈路,所以將第三路徑和第四路徑作為無效路徑丟棄,並僅結合排除全部無效路徑後剩餘的有效路徑計算網元權重。
根據上述實施例的業務系統可用性評估方法,在獲取業務系統路徑後,對路徑是否為有效路徑進行判斷,將包含了其他路徑的全部節點的無效路徑丟棄,所以在計算節點權重過程中,通過排除這些無效路徑,並僅考慮節點出現在有效路徑中的次數,能夠避免重複考慮節點的重要性,計算出的權重更為準確。
進一步地,在上述實施例的業務系統可用性評估方法中,根據所述網元的健康分值和所述網元的權重按照預定算法評估業務系統可用性的步驟包括:
步驟S401,根據網元的健康分值和網元的權重獲取路徑健康分值;
步驟S402,根據所述路徑健康分值計算所述業務系統的可用性分值。
具體地,對各路徑所涉及的網元中的非健康網元(即健康分值低於100分的網元)進行健康分值由低到高的排序,排在第n位的網元的健康分值對於該路徑的健康分值的影響為網元健康分值/n,即為該路徑的健康分值減去(100-網元健康分值)/n。例如路徑中有兩個網元出現故障,第一個網元的健康度為70,第二個網元的健康度為80,則該路徑的健康分值為100-(100-70)-(100-80)/2=60分。進一步地,若路徑中包含任何網元不可達故障(例如設備不可達或鏈路DOWN或拓撲關鍵路徑不可達),則該路徑的健康分值立即下降為0。
在獲取到該業務系統的全部路徑健康分值後,按照路徑健康分值由低到高的順序對不健康路徑進行排序,並根據下述公式2計算業務系統可用性分值:
F(n)=100-K(1×S1+1/2×S2+1/3×S3+......+1/n×Sn)公式2
其中,n為不健康的路徑的個數,Sn為第n條路徑的健康分值下降得分(優選採取1分制,例如第n條路徑的路徑健康分值為80分,即扣除了健康分值20分,則健康分值下降得分為0.2),K為一個常數,其可根據下述公式3計算獲得:
K(1+1/2+1/3+......+1/N)=100公式3
其中,N為業務系統的所有路徑數目,優選為所有有效路徑數目。
例如,某個業務系統具有的有效路徑數目為240條,那么根據公式3計算出此時的K值為16.5。此時,如果業務系統中有且僅有一個網元出現不可達故障,且該網元承載業務系統的路徑數目為4條,則導致4條路徑完全不可達,即這4條路徑的健康分值下降得分為1,則根據公式2計算出業務系統可用性分值F(n)=100-16.5(1×1+1/2×1+1/3×1+1/4×1)=65.9。此種情況例如為當有120台接入交換機訪問圖1中所示的第一業務系統伺服器H,某一接入交換機宕機時,則第一業務系統伺服器H對應的業務系統的可用性分值為65.9。
雖然這裡例示了結合公式2和公式3來計算業務系統可用性分值,但也可採取其他方式:例如根據下述公式4進行計算:
F(n)=100-K(S1+S2+S3+......+Sn)公式4
其中,K=100/N,。但按這種方式計算時,例如當有120接入交換機訪問圖1中所示的第一業務系統伺服器H,某一接入交換機宕機時,則計算出的業務系統可用性分值為F(n)=100-100(1+1+1+1)/240=98.3,由於在這種計算方法中為各路徑賦予相同的權重,所以此時計算出的業務系統可用性分值較高,其忽略了不健康路徑對於業務系統存在的較大隱患,因此優選採取上述結合公式2和公式3來計算業務系統可用性分值。
根據上述實施例的業務系統可用性評估方法,由於業務系統的可用性實質上來源於業務系統各路徑的運行狀況,而業務路徑與網元之間是多對多的關係,即一個網元出現故障,可能影響多個路徑;而多個網元出現故障,可能僅影響一個路徑,因此首先根據網元計算路徑的健康分值,再根據路徑的健康分值計算業務系統的可用性分值,能夠獲得準確、真實的業務系統當前狀態。
圖4為《業務系統可用性評估方法及系統》業務系統可用性評估系統的結構示意圖。如圖4所示,業務系統可用性評估系統包括:健康分值計算模組,用於監測業務系統中各網元故障事件,根據預設規則獲取網元的健康分值,所述網元包括節點和鏈路;節點權重計算模組,根據節點在業務系統路徑中出現的次數獲取節點的權重;鏈路權重計算模組,用於根據鏈路關聯節點獲取鏈路的權重;業務系統可用性評估模組,用於根據所述網元的健康分值和所述網元的權重按照預定算法評估業務系統可用性。
上述實施例的業務系統可用性評估系統執行業務系統可以是獨立設定在業務系統的網路中的伺服器,其執行業務系統可用性評估的流程與上述任一實施例的業務系統可用性評估方法相同,故此處不再贅述。
根據上述實施例的業務系統可用性評估系統由於不僅通過監測節點和鏈路的故障事件獲取網元的健康分值,還通過分析業務系統中各網元之間的關聯性,即業務系統的路徑,根據各網元對於業務系統可用性的影響度的不同為各網元設定不同的權重,並結合網元的權重及其健康分值來評估業務系統的可用性,所以能夠結合業務系統的具體架構對其當前可用狀態進行有效、準確的評估。
進一步地,在上述實施例的業務系統可用性評估系統中,所述健康分值計算模組包括:網元評估列表建立單元,用於建立網元健康評估列表,所述網元健康評估列表包括網元故障事件和與所述網元故障事件對應的評分原則;網元監測單元,用於監測網元故障事件並通過查詢所述網元健康評估列表獲取故障事件對應的評分原則;健康分值計算單元,用於根據所述評分原則獲取網元的健康分值。
進一步地,在上述實施例的業務系統可用性評估系統中,節點權重計算模組包括:路徑獲取單元,用於獲取業務系統路徑;路徑檢測單元,用於若檢測獲知某一路徑未包含其他任一路徑的全部節點,則確定所述路徑為有效路徑;節點權重獲取單元,用於根據節點出現在所述有效路徑中的次數獲取節點的權重。
進一步地,在上述實施例的業務系統可用性評估系統中,鏈路權重計算模組包括:相關節點權重獲取單元,用於獲取鏈路關聯的兩個節點的權重;鏈路權重獲取單元,用於根據鏈路關聯的兩個節點的權重的平均值或其中任一節點的權重確定鏈路的權重。
進一步地,在上述實施例的業務系統可用性評估系統中,業務系統可用性評估模組包括:路徑健康分值獲取單元,用於根據網元的健康分值和網元的權重獲取路徑健康分值;業務系統可用性分值評估單元,用於根據所述路徑健康分值計算所述業務系統的可用性分值。
根據上述任一實施例的業務系統可用性評估系統,能夠將業務系統可用性分值和實現的網路故障(即網元的故障事件)聯繫起來,提供顯示、分析界面,以便於系統管理員的監控。
榮譽表彰
2016年12月7日,《業務系統可用性評估方法及系統》獲得第十八屆中國專利優秀獎。