《基於多源監測數據融合的雲平台故障診斷關鍵技術研究》是依託重慶大學,由陳蜀宇擔任項目負責人的面上項目。
基本介紹
- 中文名:基於多源監測數據融合的雲平台故障診斷關鍵技術研究
- 項目類別:面上項目
- 項目負責人:陳蜀宇
- 依託單位:重慶大學
中文摘要,結題摘要,
中文摘要
隨著雲平台規模和複雜性的增長,其系統出現故障的機率也隨之增加,嚴重影響了系統可靠性和可用性,降低了系統可信性,制約了雲計算發展。雲平台故障診斷主要通過獲取源於不同方法和不同角度對系統監測的數據,依據這些數據實時檢測出異常狀態,再診斷出故障類型、故障源等,據此採取相應措施降低故障影響以提高系統可信性。目前的研究主要集中在依據單一來源監測數據的異常檢測,其檢測結果難以準確區分異常狀態是由故障引起還是由非故障引起,依據這樣的檢測結果進行診斷的誤報率較高、準確率較低。本項目依據系統的多源監測數據,在對這些數據進行多維度分析和融合的基礎上,深入研究雲平台可信性的定性分析和定量描述方法、雲平台監測網路拓撲最佳化算法、雲平台異常檢測算法和異常定位策略、雲平台故障甄別和故障溯源策略等關鍵技術,形成基於多源監測數據融合的系統故障診斷理論、技術和方法,提高故障診斷的實時性和準確性,推動雲計算技術發展和工程套用。
結題摘要
隨著雲平台規模和複雜性的增長,系統機率出現的故障也隨之增加,這嚴重影響了系統的可靠性和可用性,同時降低了系統可信性,制約了雲計算的進一步發展。為了解決常規單一數據源監測結果診斷中存在的誤報率高、準確率低、可擴展性差以及無法判斷異常起源等問題,我們提出了多源監測數據融合的研究思路,並設計和實現了相關的雲平台故障診斷原型系統用於實驗和研究。針對雲平台自身,本項目提出了分層次的關聯關係模型來形式化定義雲平台可信性,提出了基於多維度資源平衡的異常檢測部署感知檢測框架,考慮上下文環境的資源感知的靜態拓撲規划算法,以及針對高動態性的動態拓撲調整算法,從雲平台出發對整個多源異構異常監測流程提供多源數據的採集、處理以及流程最佳化。在多源異常監測算法研究方面,提出了基於增量自組織映射(SOM)的雲平台異常檢測機制,基於線上學習能力的增量局部異常因子算法,基於不平衡樣本的SVM異常檢測算法,結合獨立成分分析(ICA)和貝葉斯分類方法的異常檢測框架等。並在隨後研究中通過引入拉格朗日最佳化支持向量機、設定線上學習中的自適應增量處理規則、在數據預處理中加入聚類劃分、添加加權的歐式距離等理論和方法,對多源異構數據融合情境下的異常檢測算法進行改進和完善。其他的研究成果包括雲平台上的多服務資源競爭、實時流數據傳輸機制、數字輪轉算法、大規模數據快速最佳化選擇算法,以及相關算法在疾病管理和預測中的套用。