power ha是一款計算機應用程式,能使用多個網路連線節點,實現雙VIO伺服器。
基本介紹
- 中文名:power ha
- 網路:使用多個網路連線節點
- VIO 伺服器:實現雙 VIO 伺服器
- 站點:添加額外站點
PowerHA簡介,PowerHA 的概述,PowerHA 術語,拓撲組件,資源組件,所有資源一起組成資源組實體,PowerHA 的子系統,配置兩節點集群,連網,IP 地址接管 (IPAT),存儲,
PowerHA簡介
PowerHA for AIX® 是 HACMP (High Availability Cluster Multiprocessing) 的新名稱。HACMP 應用程式讓系統能夠應付故障,減少應用程式的停機時間。本文介紹 PowerHA,詳細解釋如何配置兩節點集群。考慮到許多客戶都需要這種配置,本文對於理解 PowerHA 和建立兩節點集群非常有用。
隨著業務需求日益增加,關鍵的應用程式必須一直可用,系統必須對故障有容忍能力。但是,這些有容錯能力的系統的成本很高。因此,需要通過應用程式提供這些能力,同時這個應用程式還應該是經濟有效的。
高可用性解決方案可以確保解決方案的任何組件的故障都不會導致用戶無法使用應用程式及其數據。實現這一目標的方法是通過消除單一故障點消除或掩蓋計畫內和計畫外停機。另外,保持應用程式高可用性並不需要特殊的硬體。PowerHA 不執行備份等管理任務、時間同步和任何與應用程式相關的配置。
PowerHA 的概述
PowerHA 和 HACMP 這兩個詞可以互換使用。正如前面提到的,它會消除單一故障點 (SPOF)。下表列出可能存在的 SPOF:
集群對象 | 消除 SPOF 的方法 |
---|---|
節點 | 使用多個節點 |
電源 | 使用多條電路或不間斷電源 |
網路適配器 | 使用冗餘的網路適配器 |
網路 | 使用多個網路連線節點 |
TCP/IP 子系統 | 使用非 IP 網路連線相鄰節點和客戶機 |
磁碟適配器 | 使用冗餘的磁碟適配器或多路徑硬體 |
磁碟 | 使用多個磁碟以及鏡像或 raid |
應用程式 | 添加用於接管的節點;配置應用程式監視器 |
VIO 伺服器 | 實現雙 VIO 伺服器 |
站點 | 添加額外站點 |
主要目標是,當兩個伺服器中的一個發生故障時,讓另一個伺服器接管。 PowerHA 集群技術通過提供冗餘實現故障轉移保護,同時通過並發/並行訪問支持水平擴展。
PowerHA 術語
PowerHA 使用許多術語。它們可以分為拓撲組件和資源組件兩類。
拓撲組件
基本上是物理組件它們包括:
- 節點:System p 伺服器可以是單獨的分區或 VIOS 客戶機
- 網路:IP 網路和非 IP 網路
- 通信接口:令牌環網或乙太網適配器
- 通信設備:RS232 或磁碟的心跳機制
資源組件
需要保持高可用性的邏輯實體。它們包括:
- 套用伺服器:它涉及應用程式的啟動/停止腳本。
- 服務 IP 地址:最終用戶一般通過 IP 地址連線應用程式。這個 IP 地址映射到實際運行應用程式的節點。因為 IP 地址需要保持高可用性,所以它屬於資源組。
- 檔案系統:許多應用程式需要掛載檔案系統。
- 卷組:許多應用程式需要高可用的卷組。
所有資源一起組成資源組實體
PowerHA 把資源組當作單一單元處理。它會保持資源組高可用性。資源組有與其相關聯的策略。這些策略包括:
- 啟動策略:這決定資源組應該激活哪個節點。
- 故障轉移策略:當發生故障時,這決定故障轉移目標節點。
- 故障恢復策略:這決定資源組是否執行故障恢復。
當發生故障時,PowerHA 尋找這些策略並執行相應的操作。
PowerHA 的子系統
PowerHA 由許多軟體組件組成:
圖 1 PowerHA 的子系統
- 集群管理器 clstrmgr 是核心進程,它監視集群成員關係。集群管理器包含管理拓撲組件的拓撲管理器、管理資源組的資源管理器、通過 RMC 設施起作用的事件管理器和事件腳本以及對故障做出反應的 RSCT。
- clinfo 進程提供用於在集群管理器和應用程式之間進行通信的 API。clinfo 還提供遠程監視功能,可以在集群狀態發生變化時運行腳本。
- 在 PowerHA 5 中,clcomdES 使集群管理器能夠以安全的方式進行通信,不需要使用 rsh 和 /.rhost 檔案。
配置兩節點集群
開始研究配置之前,先討論一下 PowerHA 的連網和存儲考慮事項。
連網
PowerHA 使用網路探測和診斷故障以及為客戶機提供高可用性的應用程式訪問能力。
節點之間的通信也要通過網路。PowerHA 直接探測三類故障:網路、NIC 和節點故障。它通過使用 RSCT 守護進程執行探測和診斷。RSCT 實際上探測跨所有網路傳送的心跳數據包是否丟失並判斷準確的丟失(網路、NIC 或節點故障)。
圖 2 說明所有 NIC 傳輸並接收心跳數據包,這有助於判斷故障。
如果心跳數據包的傳輸停止了,那么兩個節點都會認為對方停機了,因此都嘗試讓資源組上線。這會導致大規模的數據破壞。
為了避免此問題,PowerHA 使用兩種網路:
- IP 網路:例如乙太網、Ether channel 等
- 非 IP 網路:例如 RS232(為了確保即使在發生網路故障的情況下 PowerHA 也能夠區分網路故障和節點故障,需要非 IP 網路)
IP 地址接管 (IPAT)
大多數應用程式都要求 IP 是高度可用的。為了確保這一點,我們把服務 IP 地址包含在資源組中。把服務 IP 地址從一個 NIC 轉移到另一個上的過程稱為 IP 地址接管。有兩種實現 IPAT 的方法:
- 通過別名實現 IPAT:PowerHA 使用 AIX IP 別名特性把服務 IP 地址添加到 NIC 中
- 通過替換實現 IPAT:PowerHA 把接口 IP 地址替換為服務 IP
存儲
存儲設備大致分為兩類:
- 私有的存儲:只由一個節點擁有
- 共享的存儲:由集群中的多個節點擁有
所有應用程式的數據駐留在共享的存儲設備中。為了避免數據不一致,可以按以下方式進行共享存儲保護:
- 基於保留/釋放的共享存儲保護:用於標準的卷組
- 基於 RSCT 的共享存儲保護:用於增強型並髮捲組
HACMP 5.x 支持基於 RSCT 的共享存儲保護,當以非併發模式使用增強型並髮捲組時,這種保護方式依靠 AIXs RSCT 組件控制共享存儲的所有權。