簡介
數據容災系統,對於IT而言,就是為計算機信息系統提供的一個能應付各種災難的環境。當計算機系統在遭受如火災、水災、地震、戰爭等不可抗拒的自然災難以及計算機犯罪、計算機病毒、掉電、網路/通信失敗、硬體/軟體錯誤和人為操作錯誤等人為災難時,
容災系統將保證用戶數據的安全性(數據容災),甚至,一個更加完善的容災系統,還能提供不間斷的套用服務(套用
容災)。可以說,容災系統是
數據存儲備份的最高層次。
一般來說,為了保護
數據安全和提高數據的持續可用性,企業要從RAID保護、冗餘結構、
數據備份、故障預警等多方面考慮。一套完整的容災系統應該包括本地容災和
異地容災。對於那些關鍵業務不能中斷的用戶和行業如電信、海關、金融行業來說更應如此。以下,本文將探討
容災系統的一些關鍵技術,包括數據備份、數據複製、網路存儲,並以HP存儲設備舉例說明如何構造三級容災體系。
實現方式
一.
數據備份 所謂備份,就是通過特定的辦法,將講資料庫的必要檔案複製到轉儲設備的過程。其中,轉儲設備是指用於放置資料庫拷貝的磁帶或磁碟。
選擇備份的依據是:丟失數據的代價與確保數據不丟失的代價之比.還有的時候,硬體的備份有時根本就滿足不了現實需要,比如誤刪了一個表,又想恢復該表的時候,
資料庫備份就變得重要了。
Oracle提供了強大的備份與恢復策略,包括常規資料庫備份(邏輯備份,
冷備份與
熱備份)和
高可用性資料庫(如備用資料庫與
並行資料庫),以下的備份主要指資料庫的常規備份。
1.備份的重要性
備份是系統中需要考慮的最重要的事項,雖然他們在系統的整個規劃,開發和測試過程中甚至占不到1%,看似不太重要且默默無聞的工作只有到恢復的時候才能真正體現出其重要性,任何數據的丟失與嘗試見的數據down機,都是不可以被接收的。如果備份不能提供恢復的必要信息,使得恢復過程不能進行或長時間的進行(如一個沒有經過嚴格測試的備份方案),這樣的備份都不算或不是一個好的備份。
如果出現系統崩潰的災難,資料庫就必須進行恢復,恢復是否成功取決於兩個因素,精確性和及時性。能夠進行什麼樣的恢復依賴於有什麼樣的備份。作為DBA,有責任從以下三個方面維護資料庫的可恢復性:
(1)使資料庫的失效次數減到最少,從而使資料庫保持最大的可用性。
(2)當資料庫失效後,使恢復時間減到最少,從而使恢復的效益達到最高。
(3)當資料庫失效後,確保儘量少的數據丟失或根本不丟失,從而使數據具有最大的可恢復性。
數據備份是
容災的基礎,是指為防止系統出現操作失誤或系統故障導致數據丟失,而將全部或部分數據集合從套用主機的硬碟或陣列複製到其它的存儲介質的過程。傳統的數據備份主要是採用內置或外置的
磁帶機進行
冷備份。但是這種方式只能防止操作失誤等人為故障,而且其恢復時間也很長。隨著技術的不斷發展,數據的海量增加,不少的企業開始採用
網路備份。網路備份一般通過專業的
數據存儲管理軟體結合相應的硬體和存儲設備來實現。
(1)定期磁帶備份數據。
(3)遠程關鍵數據+磁帶備份。採用磁帶備份數據,生產機實時向備份機傳送關鍵數據。
遠程
資料庫備份。就是在與主資料庫所在生產機相分離的備份機上建立主資料庫的一個拷貝。
(4)網路數據鏡像。這種方式是對
生產系統的資料庫數據和所需跟蹤的重要目標檔案的更新進行監控與跟蹤,並將更新日誌實時通過網路傳送到備份系統,備份系統則根據日誌對磁碟進行更新。
(5)遠程鏡像磁碟。通過高速
光纖通道線路和磁碟控制技術將鏡像磁碟延伸到遠離生產機的地方,鏡像磁碟數據與主磁碟數據完全一致,更新方式為同步或異步。
數據備份必須要考慮到數據恢復的問題,包括採用
雙機熱備、
磁碟鏡像或容錯、備份磁帶異地存放、關鍵部件冗餘等多種災難預防措施。這些措施能夠在系統發生故障後進行系統恢復。但是這些措施一般只能處理計算機
單點故障,對區域性、毀滅性災難則束手無策,也不具備災難恢復能力。
二.數據複製
SAN專注於企業級存儲的特有問題,主要用於存儲量大的工作環境。當前企業存儲方案所遇到問題的兩個根源是:數據與套用系統緊密結合所產生的結構性限制,以及
小型計算機系統接口(
SCSI)標準的限制。大多數分析都認為SAN是未來企業級的存儲方案,這是因為SAN便於集成,能改善數據可用性及網路性能,而且還可以減輕
存儲管理作業。
SAN是人們公認的最具有發展潛力的存儲技術方案,而未來SAN的發展趨勢將是開放、智慧型與集成。
NAS是增長最快的一種存儲技術,然而就二者的發展趨勢而言,在套用層面上SAN和NAS將實現充分的融合。可以說,NAS和SAN技術已經成為當今數據容災備份的主流技術,關鍵在於如何在此基礎上開發完善全方位、多層次的數據容災備份系統,在分散式網路環境下,通過專業的
數據存儲管理軟體,結合相應的硬體和存儲設備,來對全網路的
數據備份進行集中管理,從而實現自動化的備份、
檔案歸檔、數據分級存儲以及災難恢復等功能。
三級體系
比較完善的
容災系統設計一般為三級體系結構的
容災系統,整套系統包括存儲、備份和災難恢復部分。以下使用惠普生產的備份伺服器,
模組化磁碟陣列,備份
磁帶庫和相關容災軟體舉例三級體系結構的容災系統的建立。
正常情況下,業務系統運行在主中心伺服器上,業務數據存儲在主中心存儲磁碟陣列EMA12000中。EMA12000具有從12個
磁碟驅動器到最多126個磁碟驅動器的擴展能力,能跨越多個大型主機和混合的
UNIX、多廠商的Windows NT、Windows 2000以及其他開放系統的平台。
惠普為EMA12000系統設計的ASC陣列控制軟體,實現了對跨多伺服器平台數據的集中式控制,使數據不管在何時、在何地、以及何種方式需要,其可用性都能以真正的零停機時間得到成分保證。
為了實現業務數據的實時災難備份功能,關鍵套用可設定兩個數據中心,分別是主中心和備份中心。主中心
系統配置主機包括兩台或多台HP ALPHA伺服器以及其他相關伺服器,通過構成SCSI CLUSTER組成多機高可靠性環境。主中心通過ATM/E3/
WDM與備份中心連線。
在
容災系統解決方案中,正常情況下,業務系統運行在主中心伺服器上,業務
數據存儲在主中心存儲磁碟陣列EMA12000中,同時在備份中心配置EMA12000存儲磁碟陣列。主中心存儲磁碟陣列通過ATM/E3/WDM連線到備份中心磁碟陣列,
DRM(數據複製管理器)使主中心存儲數據與備份中心數據保持實時完全一致。
3、災難恢復子系統
方案中,備份數據的
磁帶庫安置在備份中心,利用備份伺服器直接連線到
存儲陣列EMA12000和磁帶庫TL895,通過EBS(企業
數據備份)和Legato NetWorker
數據存儲管理系統控制系統的備份。萬一主數據中心出現意外災難,系統可以自動切換到備份數據中心,在保持連續運行的基礎上,快速恢復主數據中心的業務數據。
該套三級體系
容災方案具有高度的可用性。第一級,為了避免系統單點失敗而影響整個系統的情況出現,採用了冗餘的手段,大到主機,存儲設備,小到
光纖適配器,均具備冗餘容錯功能;第二級,無論是主機或存儲設備出現故障,均可通過主/備份中心
光纖交換機之間的連線來保證通信和數據的完整性;第三級,萬一主數據中心出現意外災難,系統可以自動切換到備份數據中心。三級體系的科學設計保證了數據容災系統的高度可用性和可靠性。
不僅如此,惠普獨有的HP OpenView網路設備管理軟體從根本上將
系統管理人員解脫出來。整個系統的設備雖然很多,但不論是
主機系統,存儲設備,還是光纖交換機,
光纖卡,均能通過一台工作站進行集中的管理和監控,從另一個方面保證了整個業務系統的連續不斷地運行。除正常的計畫性停機外,該系統可以做到365×24的可用性。
遠程容災
遠程
容災作為一種新的概念,已經被國內大多數行業所接受,特別是在金融、電信等信息密集型企業,實施遠程
數據保護的工作已經被提上了日程。然而對於中國的企業和機構來說,遠程容災的實現仍然面臨著多方面的難題。其中,除了投入過高這一普遍因素外,對容災如何確切地理解、在具體實施過程中存在的技術問題等,都成為企業建立遠程備份中心的屏障。
在談容災技術之前,要先了解一下什麼是災難。在日常的計算環境中,
系統管理人員有時候會遇到系統出現問題而中斷的情況,但是“中斷”並不完全等同於“災難”。廣義上說災難大致包括三種類型:不可預測的自然災害(地震、颱風、水災、雷電、火災等);基礎設施的損壞(CPU、硬碟損壞、建築物倒塌、電源中斷等); 操作失誤(誤操作、人為蓄意破壞等)。總之,對於一個計算機系統而言,一切引起系統非正常停機的事件都稱之為災難。
據統計,導致系統災難的原因一般為: 硬體故障占44%、人為錯誤占32%、軟體故障占14%、病毒影響占7%、
自然災難占3%。因而,儘早制定和建立完備的災難恢復計畫,以增強系統的抗災能力,最大限度地減少損失是當務之急。
如何使數據在遇到任何災難時都能夠被完整地保存下來,這一想法從計算機系統產生時就有了。一提到容災,大多數人會立刻討論如何將兩個距離足夠遠的存儲系統連線起來,但實際上容災的實現並非如此簡單。容災追求業務的連續性,要求實現網路上的查詢和商務活動,它包括對伺服器的長距離集群,以及兩地伺服器和套用系統的鏡像備份。
博科通訊公司中國區系統
工程部經理馬司聰先生認為,真正的容災必須滿足三個要素: 首先是系統中的部件、數據都具有冗長性,即一個系統發生故障,另一個系統能夠保持
數據傳送的順暢; 其次,具有長距離性,因為災害總是在一定範圍內發生,因而充分的長距離才能夠保證數據不會被一個災害全部破壞;第三,
容災系統要追求快速的數據恢復,也稱為
容災的“3R”(Redundance、Remote、Replication)。
從實時性上看,容災應分為三個級別:最低級為磁帶級容災,之上是帶鏡像功能和數據恢復的容災,最高級的容災應該是:鏡像+數據恢復+
伺服器集群。