介紹
數據可用性(data availability)是一個計算機存儲製造廠商和存儲服務提供商(SSP)用來描述產品和服務的辭彙,這些產品和服務是用來確保在從正常到“崩潰”的環境中當性能保持在一個必需的級別上時,數據必須是可用的。一般來說,數據可用性是通過冗餘數據存儲地點和它達到的方式來進行歸檔。一些提供商描述了某種需求:擁有數據中心和以存儲為中心,而不是以服務為中心的理念和環境。
在大型企業級計算機系統中,計算機通常通過連線到存儲設備的高速光纖來訪問數據。最知名的系統中,資料庫訪問的是ESCON和光纖通道。存儲設備通常是作為
獨立磁碟冗餘陣列(RAID)進行控制的。添加和重新配置存儲系統的靈活性以及自動轉換到備份或者錯誤恢復環境都是可程式的,或者是人工控制的開關,這通常稱為控制器。
兩個不斷流行的提供數據可用性的方式就是存儲區域網路(SAN)和網路附加存儲(NAS)。數據可用性可以用數據可用的比例(供應商提供了99.999%的可用性)以及在同一時間可以流動多少數據量(同一家供應商承諾了每秒3200兆位元組速率)來衡量。
定義
研究者們普遍認為,數據的可用性可以從數據的一致性、準確性、完整性、時效性及實體同一性五個方面進行考察,其具體定義如下:
數據的一致性:指數據信息系統中各相關數據信息之間相容、不產生矛盾。
數據的準確性:指數據信息系統中每個數據表示現實物體的精準程度。人們對數據進行操作的各個環節都可能影響數據準確性。
數據的完整性:指數據集合包含的數據完全滿足對數據進行各項操作的要求。
數據的時效性:是指在不同需求場景下數據的及時性和有效性。對套用系統而言,往往對數據時效性要求較高,過時的數據即使分析出來了也不會對實際套用產生有價值的影響。
實體的同一性:指同一實體在各種數據源中的描述統一。一個數據集合,滿足以上五個性質的程度稱為該數據集合的可用性。
一致性
數據集合中每個信息都不包含語義錯誤或相互矛盾的數據。例如,數據(公司=“先導”,國碼=“86”,區號=“10”,城市=“上海”)含有一致性錯誤,因為10是北京區號而非上海區號。又如,若銀行信用卡資料庫顯示某持卡人在北京和新疆兩地同時使用同一信用卡消費,則出現數據不一致,預示發生
信用卡欺詐的可能。
精確性
數據集合中每個數據都能準確表述現實世界中的實體。例如,某城市人口數量為4130465,資料庫中記載為400萬,巨觀來看該信息是合理的,但不精確。一致的信息也可能含有誤差,未必精確。在許多套用領域,信息精確性至關重要。
完整性
數據集合中包含足夠的數據來回答各種查詢和支持各種計算。例如,某醫療資料庫中的數據一致且精確,但遺失某些患者的既往病史,從而存在不完整性,可能導致不正確的診斷甚至嚴重醫療事故。
時效性
信息集合中每個信息都與時俱進,不陳舊過時。例如,某資料庫中的用戶地址在2010年是正確的,但在2011年未必正確,即數據過時。據統計,商業和醫療信息庫中平均50%的用戶信息在2年內可能過時,而過時信息將會導致嚴重後果。
實體同一性
同一實體在各種數據源中的描述統一。例如,為防止
信用卡欺詐,銀行需監測信用卡的使用者和持有者是否為同一人。又如,企業的市場、銷售和服務部門可能維護各自的資料庫,如果這些資料庫之間沒有共享統一的客戶標識,企業的兼併和重組會使兼併後的公司的客戶資料庫中存在大量具有差異的重複客戶信息,導致實體表達混亂。
根據以上5個性質,我們可以如下定義數據可用性:一個數據集合滿足上述5個性質的程度是該數據集合的可用性。
評估方法
分析對於數據可用性評估,國內外研究人員也進行了許多工作。以下從數據的一致性、精確性、完整性、時效性、實體同一性五個方面進行介紹和分析。
基於一致性的方法
針對異地備份系統中數據持續變化的情況,設計並實現了一種基於累積摘要值的一致性檢測方法。該方法解決了傳統一致性檢測需要中斷備份任務的問題,保證了備份任務的連續性,並且能夠迅速檢測本地伺服器和遠程備份中心數據的一致性,提高了一致性檢測的效率。從已有的一致性維護方法出發,針對海量數據多副本之間一致性維護,從一致性維護過程中所涉及的更新發布、更新傳播方式、更新傳播內容、更新衝突解決等幾個方面進行了分析,提出了相應的解決辦法。針對P2P分布存儲系統中大型數據對象面臨的
數據一致性問題,提出了數據一致性維護方法PLCP。該方法從提高更新傳播速度和減少日誌空間開銷的角度進行了數據最佳化。同時針對數據更新的問題和關鍵屬性更新的問題,提出數據一致性維護方法DACP和KACP。從無線感測網路數據安全的角度,結合一些廉價的保護技術,提出了利用跨層一致性評估信息整體質量的方法。基於數據一致性的方法,主要體現在集中存儲方面,對於分散式和非關係數據方面研究還較少,適用於海量數據的一致性評估方法有待進一步探索。
基於精確性的方法
數據精確性方面的研究結果比較少見,從精確度低的角度,提出了對應的精確性評估算法。該算法考慮了一種基於可能世界語義的描述方法。目前的研究結果顯示,數據精確性的評估方法還有待研究者們深入探究。
基於完整性的方法
針對海量關係數據中普遍存在的數據不完整現象,劉永楠等研究了關係數據完整性度量問題。針對數據的完整性計算問題,提出了
數據完整性計算模型,以及精確算法和基於均勻抽樣的近似算法。理論分析證明了近似算法可以達到任意的精度要求,可以高效地對數據完整性進行計算,通過在DBLP數據上的實驗驗證了算法的有效性和高效性。在具體套用領域,張少敏等利用IEC61970對智慧型電網進行信息集成,然後根據完整性定義,對智慧型電網數據進行自動機建模,給出了一種無需對數據進行直接操作的數據完整性定量評估模型。BarceloP等將傳統的完整性理論擴展到XML數據上,討論了不完整XML數據的表示問題。另外,針對
雲存儲服務中數據的完整性問題,一些研究者提出了PDP和POR。這兩種方案都採用了機率性證明思路,即存儲服務提供商向數據擁有者證明其完整的持有數據擁有者存儲的數據。基於數據完整性評估方面的結論還較少,特別是具有普遍適用價值的方法,還有待進一步研究。
基於時效性的方法
針對歷史評價數據時效性會影響評價計算準確性的問題,引入了評價數據的時間屬性,構造了評價數據衰減因子,減小了時效性對於評價計算準確性的影響。研究了包含冗餘記錄的集合在給定時效約束下的時效性判定問題,並首次提出了時效性判定問題的求解算法.在建築能耗領域,通過對幾類典型公共建築能耗數據的統計分析對比,提出了採用近1年的能耗數據作為統計樣本的建議。基於時效性方面的研究非常匱乏,已有的少量研究結論都主要針對一些特殊套用,還需深入系統的研究。
基於實體同一性的方法
實體同一性是數據可用性研究較多的一個方面,實體同一性研究主要涉及兩類方法:第一類是從語義規則的角度進行同一性研究,這類方法主要通過經驗知識來描述實體的同一性問題;第二類是從相似性的角度進行同一性研究,該類方法主要採用相似度函式來對實體同一性進行判定。針對實體同一性方面的相關技術,包括實體識別的效率問題、識別的增量計算、半結構化數據上的實體識別等,展開了相對完整的討論。對於實體統一性的評估方法大多針對關係數據,針對複雜結構數據、半結構化數據、非機構化數據方面的研究還很少。
挑戰和問題
確保數據可用性是一項十分困難的任務。考慮到大數據的數據量大、數據產生速度快、數據類型複雜、價值大密度低等4個特點,確保大數據可用性將變得難上加難。我們需要針對大數據的4個特點,解決如下大數據可用性的5個挑戰性研究問題。
高質量大數據獲取與整合的理論和技術
高質量數據的獲取是確保信息可用性的重要前提。海量數據的來源多種多樣(如複雜物理信息系統、物聯網、Internet上的數據資源),數據模態千差萬別(如關係數據、XML數據、圖數據、流數據、標量數據、矢量數據),質量參差不齊,加工整合困難。這些問題在當今突飛猛進的感測網、
信息物理融合系統和物聯網及其產生的大數據背景下尤其嚴重。因此,我們需要解決如下挑戰性問題:在數據獲取階段把住質量關,探索從物理信息系統等多數據源有效地獲取高質量大數據的理論和方法,研究高效數據過濾方法,建立多模態大數據融合計算的理論和算法,實現高質量數據獲取和精準整合,繼而發現數據演變規律。
完整的大數據可用性理論體系
在數據可用性研究中,我們必須回答如下問題:如何形式化地表示數據可用性?如何從理論上判定數據可用性?如何定量地評估數據可用性?數據錯誤自動發現和修復的理論依據是什麼?數據和數據質量融合管理(簡稱量質融合管理)的理論基礎是什麼?數據如何演化?沒有一個完整的數據可用性理論體系,這些問題是無法回答的。因此,我們需要建立統一的框架,提出完整的數據可用性理論體系,解決如下挑戰性問題:建立大數據可用性的理論模型、大數據可用性的形式化系統和推理機制、大數據可用性評估理論和算法、大數據量質融合管理的理論和算法、大數據演化機理、大數據可用性所涉及的計算問題的複雜性理論和算法設計與分析的新方法。
數據錯誤自動檢測與修復的理論和技術
現有的數據可用性的方法和系統缺乏堅實的理論基礎,不能實現自動的錯誤檢測和修復。為了實現數據錯誤的自動檢測和修復,我們需要在數據可用性理論體系基礎上解決如下挑戰性問題:提出大數據錯誤自動檢測和修復問題的
可計算性理論、大數據錯誤自動檢測和修復問題的計算複雜性理論、大數據錯誤自動檢測和修複方法的可信性理論、高效實用的大數據錯誤自動檢測與修復算法。
弱可用數據上近似計算的理論和技術
當數據中的錯誤不能徹底修復時,這些數據稱為弱可用數據。直接在弱可用數據上進行滿足給定精度需求的近似計算,不失為一個有意義的選擇。遺憾的是現有的理論與算法無法支持弱可用數據上的近似計算。因此,我們需要解決如下挑戰性問題:提出弱可用大數據近似計算的可行性理論、弱可用大數據近似計算問題的計算複雜性理論、弱可用大數據上近似計算結果的質量評估理論、弱可用大數據上的近似計算方法。
弱可用數據上的知識發掘與演化的機理
大數據的可用性問題必然導致源於數據的知識的可用性問題。當數據完全可用時,從正確的大數據中發掘知識以及從數據演化探索知識演化機理的研究已經很困難。當數據弱可用時,弱可用大數據上的知識發掘與演化機理的研究將更加困難。我們需要解決如下挑戰性問題:提出源於弱可用數據的知識可用性評估理論與方法、數據可用性與知識可用性的相關性理論、弱可用大數據上知識發現的計算複雜性理論和算法設計與分析新方法、源於弱可用數據的知識校驗與糾偏的理論和方法、源於弱可用數據的知識演變機理。綜上所述,大數據可用性在基礎理論、算法和工程技術各層面都提出了嚴峻的挑戰性研究問題。目前大數據可用性研究工作還剛剛開始,僅觸及少數幾個側面,大量科學技術問題有待解決,向我們提出了新的挑戰,也為我們提供了新的機遇。