故障快照

故障快照 (What Just Happen)是NVIDIA在其乙太網交換平台上提供的遙測功能。故障快照(WJH)具備豐富和獨特的功能,可以對數據在網路轉發過程中出現的各種事件進行精確的發現和定位。從而幫助網路使用者和維護者快速發現和定位網路中的故障和性能事件,從而提高對網路的監控水平,為故障排除和改進設計提供切實和量化的依據。WJH基於事件驅動,可輕量化本地部署,大大降低了遙測功能使用的門檻。

基本介紹

  • 中文名:故障快照
  • 外文名:What Just Happen
  • 別名:WJH
原理簡介,套用,

原理簡介

故障快照WJH 解決方案利用 Mellanox Spectrum™ 和 Spectrum™-2 乙太網交換機晶片內置的獨特硬體功能,以T-比特級別的速率檢測數據包。
故障快照 (WJH) 是一種先進的流遙測 (Streaming Telemetry) 技術,針對基於網路的問題為管理員提供實時可見性。故障快照(WJH) 可以對於異常網路行為提供詳細的操作建議,遠優於傳統的遙測解決方案。
利用 NVIDIA Mellanox Spectrum乙太網交換機晶片內置的獨特硬體功能,以萬億比特級別(Multi Terobit)的速率檢測數據包,速度遠快於業界傳統的基於軟體或固件的數據處理方案。故障快照 (WJH) 可以以線速檢查所有連線埠上的數據包,其速度輕鬆超碾壓傳統的數據包檢測 (PI - Packet Inspection) 解決方案。
NVIDIA Mellanox Spectrum® 乙太網交換機可以從不同層面(包括 網路 L1 - L4 層、ACL、緩衝區占用率和延遲等)提供豐富的、上下文相關的信息和操作建議。故障快照 (WJH) 代理(Agent)通過 NVIDIA Mellanox Spectrum 乙太網交換機在本地收集事件記錄和可視化洞察信息,及時發現不同層面的網路事件中“何時”、“何地”、“何事”、“何人”、“為何”等關鍵元數據,促進問題解決或決策的制定。
目前,故障快照可監控上百種網路事件。包括因各種原因產生的丟包事件和非丟包事件(如資源使用、水線等),並為這些網路事件提供各種元數據。解釋事件的原因和事件發生時的數據和設備狀態。
相對傳統解決方案試圖通過簡單地分析網路計數器和數據包採樣統計,以推斷網路問題的根源;故障快照 (WJH) 則讓管理員在進行網路故障排除時無需猜測,直達問題。
管理員還可將故障快照 (WJH) 配置為監控交換機中某些類型的事件,過濾掉其他無關事件。
交換機可以上報詳細的相關事件的遙測數據、上下文關聯信息和建議操作等。管理員可通過 CLI 界面在本地訪問這些收集到的信息,詳細的數據 payload 信息被抓包保存在 pcap 檔案中。隨後,管理員可以使用 Wireshark 等工具對抓取的數據包信息進行分析。

套用

故障快照 (WJH)可用於所有 Mellanox Spectrum 平台,支持平台上運行的各種網路作業系統 (NOS),包括 Onyx、Cumulus Linux、Linux Switch/DENT 和 SONiC。
藉助故障快照 (WJH) 技術,管理員可以在交換機平台上形成網路上下文,輕鬆完成流量檢測、過濾和問題識別,最終只輸出與問題相關的數據。例如,當數據包被丟棄時,故障快照 (WJH) 會提供數據包報文頭以及有關數據包被丟棄的詳細原因,使管理員能夠進行更徹底的分析。
故障快照 (WJH) 可以幫助網路管理員加快問題解決,顯著降低平均解決問題時間(MTTI)。此外,故障快照 (WJH) 還可對如何提高資源利用率和規劃網路容量等問題,為管理員提供建議。
除了命令行 CLI 之外,管理員也可以通過 Mellanox NEO® 調用故障快照 (WJH) 功能。CLI 中使用的數據包過濾和抓包功能也可以通過 Mellanox NEO 進行操作。
故障快照 (WJH) 是一種開放乙太網解決方案,可以集成到開源工具(如 Grafana 或 Kibana)中,也可以與“交鑰匙”數據中心監控解決方案(如 Cumulus NetQ)相結合。管理員可使用容器化代理(由 Mellanox 提供)通過 gRPC,將交換機上收集的數據以 JSON 格式或 InfluxDB 行格式,流式傳輸到交換機之外的設備上。流遙測數據可以集中存儲在時間序列資料庫(如 InfluxDB)中。管理員可使用 Grafana 等可視化工具來展示資料庫中的數據。
check!

熱門詞條

聯絡我們