容錯技術概況
容錯FT(Fault Tolerant)技術一般利用
冗餘硬體交叉檢測操作結果。隨著處理器速度的加快和價格的下跌而越來越多地轉移到軟體中。未來容錯技術將完全在
軟體環境下完成,那時它和
高可用性技術之間的差別也就隨之消失了。
區域網路的核心設備是伺服器。用戶不斷從
檔案伺服器中大量存取數據,檔案伺服器集中管理系統共享資源。但是如果檔案伺服器或檔案伺服器的硬碟出現故障,數據就會丟失,所以,我們在這裡講解的容錯技術是針對伺服器、
伺服器硬碟和供電系統的。
雙重檔案分配表和目錄表技術
硬碟上的檔案分配表和目錄表存放著檔案在硬碟上的位置和檔案大小等信息,如果它們出現故障,數據就會丟失或誤存到其他檔案中。通過提供兩份同樣的檔案分配表和目錄表,把它們存放在不同的位置,一旦某份出現故障,系統將做出提示,從而達到容錯的目的。
快速磁碟檢修技術
這種方法是在把數據寫入硬碟後,馬上從硬碟中把剛寫入的數據讀出來與記憶體中的
原始數據進行比較。如果出現錯誤,則利用在硬碟內開設的一個被稱為“熱定位重定區”的區,將硬碟壞區記錄下來,並將已確定的在壞區中的數據用原始數據寫入熱定位重定區上。
磁碟鏡像技術
磁碟鏡像是在同一存儲通道上裝有成對的兩個
磁碟驅動器,分別驅動原盤和副盤,兩個盤串列交替工作,當原盤發生故障時,副盤仍舊正常工作,從而保證了數據的正確性。
雙工磁碟技術
它是在網路系統上建立起兩套同樣的且同步工作的
檔案伺服器,如果其中一個出現故障,另一個將立即自動投入系統,接替發生故障的檔案伺服器的全部工作。
網路作業系統具有完備的事務跟蹤系統
這是針對資料庫和多用戶軟體的需要而設計的,用以保證資料庫和多用戶套用軟體在全部處理工作還沒有結束時或工作站或伺服器發生突然損壞的情況下,能夠保持數據的一致。其工作方式是:對指定的事務(操作)要么一次完成,要么什麼操作也不進行。
UPS監控系統
在工作中,我們選取的容錯技術應根據實際情況而定(如資金,規模等)。
容錯技術歷史
上世紀80年代,第一代容錯技術就開始進入商用領域。美國Stratus(容錯公司)在Stratus獨特的硬體級容錯技術及VOS專有作業系統環境下,採用了Motorola M68000處理器。
1993年,
英特爾 I860處理器在Stratus的硬體級容錯體系結構中成功套用,在
軟體環境方面,還能滿足業界對開放性要求的Unix作業系統FTX,即AT&T UNIX SVR4。
1996年,容錯技術得到HP的支持,共同推出Stratus Continuum系列,將Stratus容錯結構結合HP PA-RISC
對稱多處理技術。
進入21世紀以來,製造、中小企業、能源、交通等領域對伺服器,特別是中低端
IA伺服器的需求激增,過去僅僅可以套用在RISC平台、HP-UX環境下的容錯產品也面臨著新的挑戰。另一方面,企業越來越依賴信息系統來完成關鍵業務的套用,同時他們不可能配備更多的專業人員來進行專職維護。
雙機熱備、
集群伺服器遇到難題。
如今:NEC通過與美國容錯公司多年的合作,於2001年推出了業界第一台基於IA架構、支持Microsoft Win-dows Server 2000標準作業系統環境的容錯伺服器。NEC的Express5800/ft系列在Windows及
Linux平台上的可靠性達到了99.999%,這種實時保護技術來源於STRATUS連續處理技術(Fundamentals of Continuous Pro-cessing Design),它包括:
LOCKSTEP 技術
LOCKSTEP技術使用相同的、冗餘的硬體組件在同一時間內處理相同的指令。LOCKSTEP技術可以保持多個CPU、記憶體精確的同步,在正確的相同
時鐘周期內執行相同的指令。該技術保證能夠發現任何錯誤,即使短暫的錯誤,系統也能在不間斷處理和不損失數據的情況下恢復正常運行。
安全故障(FAILSAFE)軟體
FAILSAFE 軟體和LOCKSTEP技術運行一樣,可防止很多
軟體錯誤和儲運耗損。該軟體在Windows 2000/2003環境下採用
熱插拔、
記憶體鏡像、
負載均衡、多點終止失效、多通道I/O等方式,大大增強了系統連續運行的穩定性。
FAILSAFE可以管理和診斷特徵捕獲,分析和通報伺服器的軟體問題,從而允許個人在軟體發生錯誤之前去糾正錯誤。FAILSAFE軟體的下列功能增強了NEC Express5800/ft系統在Windows環境中的可靠性:保護短暫的硬體故障;通過增強的驅動程式預防
軟體失效;軟體問題的捕獲、分析及修正;記憶體數據的連續性維持;豐富的糾錯功能可以解決各種不同的錯誤。為了避免物理撞擊等意外故障,安全故障軟體還提供了自動重啟功能,能夠將宕機前CPU與記憶體數據即時保存下來,最大限度地避免數據的意外丟失。
激活服務(ACTIVE SERVICE )
當然,假如容錯伺服器的硬體發生永久性故障,儘管系統能夠正常運行,也必須及時更換硬體才能維持容錯的
冗餘架構。
容錯伺服器都配備了簡易直觀的圖形界面來管理監測工具,(如NECExpress5800/ft提供了ESMPRO
管理軟體),能夠對伺服器中硬體運行及故障狀態進行適時監控。
發展趨勢
容錯技術的套用已經開始從過去的證券、電信等領域進入基礎行業,如製造、能源、物流、交通及有著"7×24"不間斷運營需求的中小商業團體和政府。NEC為迎合網際網路的高速增長,為容錯伺服器引入了最新的穩定、安全、可升級、功能強大的Linux版本。
容錯的未來將會向更高的可用性、更卓越的
可維護性發展。調查顯示,越來越多的用戶開始注重TCO(總擁有成本)而不是初期購買價格,更多的企業決定逐步放棄採用
雙機熱備的方式來維護複雜的
集群伺服器,轉而將目光瞄向具有容錯技術的平台或
容錯伺服器平台。
在中國市場,NEC 公司與
神州數碼的合作在一定程度上彌補了容錯伺服器在中國市場服務拓展領域的短板。這將引發國內各領域的容錯技術與套用的井噴式發展。