數據註冊中心(DRC),是 DOA 的核心部件,通過它來構建邏輯的數據資源池,並管理數據和提供數據服務。DRC 按照統一標準進行設計,可以將各個 行業或不同規模的 DRC 進行互聯和關聯,從而可以構成更大規模的 DOA 系統。
數據許可權中心(DAC),是 DOA 的關鍵部件,對數據的安全存儲、傳輸及套用授權進行管理。對數據實行“天生加密、授權使用”的機制,將數據分成存儲和傳輸時保持加密的“數據態”和在套用中授權使用時解密的“套用態”,充分保證數據的安全及使用的授權。
數據異常控制中心(DEC),是 DOA 的重要部件,對數據資源池進行自適應管理,也是數據生態系統的主要構成。
數據套用單元(DAUs),是 DOA 的關鍵部件,關聯套用對數據的訪問,對各種套用提供支持。類似於構件系統,在數據資源池之上,以模組和積木方式提供應用程式接口(API,Application Programming Interface),供套用系統直接調用,可以由易到難,由簡到繁地構建生態的套用系統。
意義
李國傑院士在關於大數據套用與研究所面臨的問題與挑戰中指出,大數據時代,“需要考慮對整個 IT 架構進行革命性的重構”。廣義上講,革命指推動事物發生根本性變革,引起事物從舊制到新制的飛躍。我們認為 IT 架構的革命性重構應該從硬體和軟體兩個方面來考慮。雲計算已經較好地解決了硬體方面的問題,並且為軟體方面的革命性重構奠定了重要基礎。但軟體方面,在軟體的體系結構上,目前還沒有很好的解決方案。受軟體體系結構的局限,信息技術領域長期存在的問題在大數據時代愈發突出:
(3)數據管理。過去的信息系統涉及的多是結構化數據,通過關係型資料庫管理系統(RDBMS, Relational Data Base Management System)就能很好地對數據進行管理。現在面臨的大數據具有海量、異構、多源、動態、實時變化和爆發式增長的特點,數據來源多樣,種類繁多,動態變化,包括來自物聯網的物理空間數據,社交網路的網路空間數據等,至今沒有統一的數據定義和管理辦法。
DOA 主要包括以下內容:面向數據的體系結構的機制、面向數據的體系結構的組成、數據註冊中心的機制、 數據許可權中心的機制、數據異常控制中心的機制、數據套用單元的機制等。
(1)面向數據的體系結構的機制
包括: 面向數據和以數據為核心的指導思想;大數據時代對體系結構的需求;數據的定義和分類;數據的載體及與雲計算的關係;數據生態系統的含義及 DOA作用; DOA 與數據和套用的關係; DOA 對數據的管理和服務模式; DOA 與套用的業務邏輯和數據邏輯關係; DOA 下數據安全的基本原理;等。面向數據和以數據為核心的指導思想。 數據是有生命的,具有生命周期,生命過程需要全記錄。數據是有屬性的,具有安全屬性、身份屬性、時間和空間屬性。數據要天生加密,穿戴盔甲,加密呈現,具有不同的加密級別和深度。數據是獨立於系統的,數據是套用的基礎,不依賴於特定的硬體環境和軟體環境。同一數據可以支撐不同的套用。數據的訪問和套用是基於授權的,特定的訪問者,特定的場合(環境),特定的時間(時段),數據的使用和用戶適合於網路安全的授權、認證和計帳( AAA, Authorization, Authentication, Accounting)機制。數據是加密存儲與傳輸的(數據態),授權後解密使用(套用態)。數據系統是生態的,變化和發展的,是可持續發展的,自生長、自管理、自適應的。虛擬世界由數據組成,是真實世界的映射。建立數據生態系統,就要面向數據和一切以數據為核心。數據生態系統包括生態的各種套用,是“肥沃的數據土壤上生長著茂盛的套用森林”。數據生態系統需要構建邏輯的數據資源池,支持數據大平台與碎片化和不斷增長的套用,支持數據共享和系統可擴展。基於數據:一切可測,一切可聯,一切可操作,一切可實現。
大數據時代對體系結構的需求。 大數據時代,我們從信息技術(IT,Information Technology) 時代來到了數據技術( DT, Data Technology) 時代。從關注技術(T)到關注信息(I),再到關注數據(D)。信息是因人而異的,是功利性的、利己的,強調的是我,信息技術是為自己的;數據具有普適性,可以產生信息,是公益性的、利他的,強調的是我們,數據技術是為大家的。 馬雲提出,人類已經從 IT 時代走向 DT 時代, IT 時代是以自我控制、自我管理為主,而DT時代,它是以服務大眾、激發生產力為主的技術。 數據技術包括信息技術,數據技術範圍更廣,內涵更豐富;信息技術更具體,針對性更強。數據系統包括信息系統,信息系統是數據系統的子集。雲計算為數據技術時代的到來提供了可能:雲存儲具有幾乎無限的海量數據存儲能力。數據技術時代,需要新的世界觀,即數據世界觀,數據安全觀。數據技術時代,也就是大數據時代,需要相適應的軟體體系結構,支持數據安全,支持一切業務數據化,管理海量、異構、複雜、變化和爆發式增長的大數據,並提供挖掘有價值信息的支持。現有系統架構大都是小數據時代遺留和發展的技術架構,現有安全體系也是建立在小數據時代技術架構之上的。以信息技術(小數據時代)發展而來的技術和信息安全技術,不能適應大數據時代的要求。 Hadoop、MapReduce 等技術,只解決了大數據的靜態和量大的一部分問題。需要重新審視數據,站在數據的角度審視技術、架構、安全體系。
數據的載體及與雲計算的關係。 雲計算可以從彈性計算和存儲服務兩個方面來劃分類型,典型如亞馬遜的彈性計算雲( EC2, Elastic Compute Cloud)和簡單存儲服務(S3, Simple Storage Service)。在架構上習慣上分為基礎設施作為服務(IaaS, Infrastructure as a Service)、平台作為服務(PaaS, Platform as a Service)和軟體作為服務(SaaS,Software as a Service)三層,本質上雲計算就是雲服務,但還應有數據作為服務(DaaS, Data as a Service)這重要的一層。從數據角度,雲計算更多是數據的存儲服務,是 IaaS 和DaaS,通過分散式和虛擬化技術,將基礎設施與數據融為一體( I+D, Infrastructure plus Data),為終端用戶提供彈性的、可計量的、個性化的數據和計算服務,可以簡稱“雲”。一切皆在雲中,包括所有的基礎設施,如網路、伺服器、存儲設備等,更重要的是包括所有的數據,網路世界和物理世界的數據等。以數據為內容定義雲,可以分為存儲雲、網路雲和物理雲。存儲雲數據舉例:基礎數據,影像數據,歷史數據,行業數據等;網路雲數據舉例: QQ,微信,百度,部落格,簡訊,淘寶,電子郵件, APP 軟體等;物理雲數據舉例:雨量,溫度,視頻,PM2.5,交通流量,設備,人員等。數據生態系統的含義及 DOA 作用。 數據生態系統,是“肥沃的數據土壤上生長著茂盛的套用森林”, DOA 是數據與套用之間可持續發展的關係描述。一個數據生態系統能夠成立,關鍵是要建立一種有效的作用機制,這就是面向數據的體系結構(DOA)。 DOA, “是一個信息系統的體系結構,針對任何數據類型,基於雲服務的概念,與具體的硬體平台和軟體系統無關,通過以數據為核心和面向數據的理念來建立構建複雜信息系統的機制,以數據標識作為數據的識別和定位標記,建立數據的分類體系和訪問許可權,通過數據註冊和登記中心實現數據的管理和交換,通過建立各種數據功能單元,可以由簡到繁、由易到難地構建複雜套用系統,實現多系統間的數據共享、訪問和協同”。DOA 與數據和套用的關係。 人類通過包含計算機網路在內的計算機硬體和軟體系統建立了虛擬世界,通過虛擬世界去認識、建設、改造和適應真實世界,於是產生了大量的數據和各種套用。 DOA 就是建立在雲計算支撐的數據和各種套用之間的、分別可以對數據和套用進行管理和服務的一種機制、一個平台,形成一個以這種機制和平台的相對不變來應對數據和套用萬變的數據和套用的生態系統。這種關係和機制,也可以實現從實時數據到實時套用的支持。數據、DOA 平台和套用所構成的三層架構如右圖所示。數據-DOA平台-套用架構圖
DOA 對數據的管理和服務模式。 DOA 面對的數據是廣義數據。要對廣義數據進行管理和服務,首先要解決對各種類型數據的統一標識和管理問題。其次,要考慮數據的價值保護,要對數據進行屬性管理,對數據進行許可權和授權管理。再次,在分散式套用和有數據冗餘的情況下,要考慮數據的一致性問題。據此提出數據註冊中心( DRC)、數據許可權中心( DAC)和數據異常控制中心( DEC),互相配合實現對各種類型數據的統一管理,並為套用提供數據服務。
DOA 與套用的業務邏輯和數據邏輯關係。 傳統的套用信息系統構建邏輯大都是面向業務的邏輯,即根據需求,按照業務流程進行需求分析,就事論事地對系統進行設計和開發。按照業務邏輯,要求信息處理流程、數據結構等都按照業務過程的要求進行設計,好處是信息流程與業務流程比較一致,但缺點是,在今後一旦業務流程發生變化,信息處理流程、數據結構等都要做相應的變化,給系統開發和維護帶來不可預測的困難。 DOA 要求面向數據,即要將套用的業務邏輯轉換為數據邏輯,這樣,就要求將業務流程按照對數據資源池訪問的周期梳理成一個個小的面向數據的流程,最後再將這些面向數據的流程整合成面向業務的流程,完成套用信息系統的開發。這樣做的好處是一旦構建了數據資源池,構建面向數據的業務流程會比較便捷,而且業務流程發生變化,不會影響整個數據邏輯和數據流程,只需增加變化的部分或調整一些數據流程去適應新的變化即可。缺點是,要將業務邏輯轉換為數據邏輯,需要做一個思想轉變。
DOA 下數據安全的基本原理。 傳統的信息安全,首先是建立一個封閉和相對安全的環境,通過各種方式來保證這個封閉環境是安全的或可信的,但在這裡面的數據卻大多是“裸露”的。一旦有不速之客通過漏洞進入到這個環境, “裸露”的數據就面臨著極大的危險。在網際網路和雲計算的開放環境下,按照這種封閉環境下的信息安全策略進行數據保護,將面臨著極大的挑戰。
DOA 是面向數據和以數據為核心的。數據是有屬性的,具有安全屬性、身份屬性、時間屬性和空間屬性。要明確數據的主人、朋友和敵人。從數據角度考慮安全問題,要保證數據的完整性、機密性和可用性。數據要“天生加密,授權使用”。數據具有自保護功能,要穿戴盔甲,以加密方式呈現,具有不同的加密級別和深度。數據的使用要經過授權。數據具有兩種狀態:存儲和傳輸時的“數據態”以及授權使用中的“套用態”。 “數據態”是加密狀態, “套用態”是解密狀態。一旦完成“套用”或離開了套用環境,數據應立即“變”為加密的“數據態”。 DOA 提供一種加解密機制和授權使用機制,使得數據在存儲和傳輸時是不可訪問和使用的,而經過授權的用戶在訪問數據或通過套用使用數據時,是透明的,即感覺不到數據的加密和解密過程。因此, DOA 下的數據安全策略是, “數據態”的數據,既適合於封閉環境,也適合於開放環境,而“套用態”的數據,僅適合於“封閉”環境。這樣,數據安全問題就化解為數據加密和授權使用機制、數據自我保護和自動加解密機制、套用環境安全等幾個關鍵問題了。
(2)面向數據的體系結構的組成
包括: DOA 的組成及完備性;數據註冊中心( DRC)基本功能;數據許可權中心( DAC)基本功能;數據異常控制中心( DEC)基本功能;數據套用單元( DAUs)的基本功能;面向數據的軟體工程原理初步探索;等。
DOA 的組成及完備性。 DOA 是一種構建在雲計算環境之上的軟體體系結構,不涉及直接對具體硬體的控制和訪問。作為協調數據和套用之間的關係以及構建數據生態系統的一種機制, DOA 應具有對廣義數據進行全面管理和服務的功能,以及對各類套用進行全面管理和服務的功能。初步考慮的 DOA 組成包括:對廣義和各類數據進行登記註冊管理的數據註冊中心( DRC),對數據進行授權、認證和計帳(授權及訪問過程記錄)管理的數據許可權中心( DAC),對數據的一致性進行管理的數據異常控制中心( DEC),以及對各類套用進行管理、服務提供支持的數據套用單元( DAUs)。這些中心和套用單元,構成了 DOA 的基本框架,它們之間既相互獨立,又相互關聯,形成一個有機的整體。相互獨立,體現在它們的任務和功能互不相同;相互關聯,體現在它們之間的互為依賴。例如,DAC、 DEC 和 DAUs,都要依賴於 DRC。
數據異常控制中心(DEC)基本功能。 數據異常控制中心對分散式環境下有數據冗餘時的數據一致性進行處理,功能涉及但不限於:數據維護,自適應管理,異常探測與處理,巡檢,異常與衝突發現,同步處理,冗餘處理,負載均衡等。數據套用單元( DAUs)的基本功能。 數據套用單元是在數據資源池之上的一系列套用單元模組,針對套用管理和服務,通過類似於基於構件的軟體開發模式( COA)的搭積木方式和應用程式接口( API, Application Programming Interface)調用,以“數據驅動套用”,快速滿足用戶的各種套用功能需求。其功能應根據各種具體套用的需求,涉及但不限於:根據不同數據類型提供不同功能的數據功能單元( DFU, Data Function Unit),以推送方式提供服務的數據服務單元( DSU,Data Service Unit),數據加解密單元( DEU, Data Encryption Unit),數據授權調用單元( DIU, Data Invocation Unit),數據套用組合單元( DCU, Data CombinationUnit),數據可視化單元( DVU, Data Visualization Unit),數據處理單元( DPU,Data Processing Unit),等。
面向數據的軟體工程原理初步探索。 面向數據的體系結構 DOA 為軟體開發提供了新的方法。區別於傳統的面向業務的軟體工程,新的面向數據的軟體工程具有新的活力。擬開展以下研究:具有生命周期的套用軟體與數據生態系統的關係研究;業務邏輯轉化為數據邏輯的開發過程研究;邏輯的數據資源池建設和運行維護機制研究;基於成長型數據生態系統的套用軟體開發模式研究;基於DAUs 的面向數據的套用軟體快速構建機制研究;已有系統的數據整合方法研究;等。
DOA 意在從架構角度對未來數據系統進行全方位設計,包括數據安全在內。DAC 通過數據許可權的管理對數據進行保護,並提供數據授權使用的機制,也可以保護數據擁有者的利益。因此,DAC 的機制涉及但不限於:開放環境下數據安全基本理論;數據的狀態機制;數據固有安全屬性;數據訪問控制許可權及管理機制;數據合法性鑑定;數據許可權中心的作用和運作機制;用戶認證機制及證書授權( CA, Certificate Authority)技術;數據授權機制及與公共密鑰基礎設施( PKI,Public Key Infrastructure)關係;數據使用記錄及其溯源機制;計帳機制;多級授權及認證機制;單個數據與批量數據或大數據量授權使用機制;密鑰體系;數據透明加解密策略和算法;加解密效率與安全性及授權過程的妥協關係;傳統數據傳輸加密技術適應性;套用環境安全保障;數據非法使用識別及數字水印技術;數據權人權利和智慧財產權相關問題;等。
開放環境下數據安全基本理論。 開放環境下,要做到數據本身的安全,並能夠安全使用,首先就是數據要進行加密,數據應該具有“天生加密,授權使用”的特性。不妨假設數據在使用中是不加密狀態,那么數據不在使用中就應該保持加密狀態。因此,設定數據具有兩種狀態:存儲和傳輸時處於加密狀態的“數據態”以及授權使用中處於解密狀態的“套用態”。 DOA 作為一種機制,就要保證數據能夠在這兩種狀態中與授權和加解密技術關聯起來。目前有關數據安全的理論和方法體系、網路的授權、認證和計帳的 AAA 技術、CA技術、PKI技術、密鑰體系、加解密技術等,以及網路安全技術、系統安全技術、套用環境安全技術等,都是適用的,但要從面向數據和以數據為核心的角度進行重新梳理,從數據安全的理念、理論、方法和受保護數據的套用機制等方面,進行適應性研究和更進一步的探討。
數據許可權中心的作用和運作機制。 數據許可權中心負責對數據進行安全保護,並對數據的使用進行授權管理和套用安全管理。因此,數據許可權中心要管理數據安全屬性,鑑別數據的合法性,設定數據的訪問許可權,認證用戶和套用,對數據進行用戶和套用授權,對授權過程進行記錄和計帳,對數據進行加解密,等。數據許可權中心要與數據註冊中心配合,有關數據的屬性和許可權等數據,需要在數據註冊中心進行註冊和登記,數據許可權中心根據註冊的信息,對數據進行監控、授權、回收權利、認證、計帳、加解密和新數據安全屬性註冊等操作。從內部看,數據的使用過程就是數據的授權和不斷擴大授權範圍的過程,計帳就是對這些授權的記錄,可以為後續的商業套用奠定基礎。未來任何一個 DOA 平台,在提供數據管理和服務的同時,也具備了數據商業運作的基本能力。
用戶認證機制及證書授權(CA)技術。 數據套用授權是建立在用戶認證的基礎上的。用戶認證與用戶的屬性相關,認證過程是用戶註冊和管理維護過程。登記用戶信息是數據註冊中心(DRC)重要的數據註冊內容,也是數據許可權中心(DAC)需要用到的重要數據。用戶認證技術,可以採用傳統的 CA 技術,需要有第三方權威中心或局部中心向用戶頒發用戶證書(私鑰)。同時,數據和用戶之間通過數據安全屬性建立關聯關係。
(4)大數據分析和挖掘支持。大數據分析和挖掘需要有方便數據管理的架構,需要有方便和高效積累的數據。 DOA 提供不斷積累的、包含有中間計算結果的數據源泉,並提供成長型的數據生態系統和可行的數據安全管理機制, DRC提供快速和便捷的數據檢索機制,並支持對複雜數據實現關聯分析的算法, 可以基於 DOA 建立用於數據密集型大數據分析和挖掘的決策支持平台, 使基於大數據的預測、判斷和決策更科學、客觀和可持續。
(5)軟體工程。 DOA 以數據為核心, 建立的數據資源池可以適應任何數據變化,也可以應對任何業務需求的變化。在 DOA 支持下,傳統的面向業務的軟體工程將轉變為面向數據的軟體工程。它迎合、滿足、解決未來對於大數據及其套用分析挖掘不確定性的平台需求。在種種不確定下,仍然能夠讓用戶自己就能快速簡單地管理與分析不斷變化與增長的數據,完成傳統套用軟體、傳統中間件做不了的事情。它顛覆傳統,不強調軟體生命周期,而是強調數據生態系統,即數據大平台與碎片化套用系統,建立的是“肥沃的數據土壤上生長著茂盛的套用森林”;不考慮數據共享問題;是將業務邏輯轉化為數據邏輯的開發過程;是基於成長型數據生態系統的套用軟體開發模式;數據資源池的框架建立好後, 邊調研邊開發,開發過程就是系統擴展過程;是分階段分期開發模式,可以保護已有投資,容易實現定製化開發。
(6)信息安全。因為 DOA 建立的是數據“天生加密,授權使用”機制,這樣可以使數據在開放環境下進行存儲和傳輸,既可以適應傳統封閉的安全環境下的套用,增強了信息的安全保障,又可以在開放環境下保證數據的安全和不被越權訪問。 DOA 安全理念和技術,與現在發展的網路空間安全、系統安全、套用環境安全等技術相結合,可以有效提高信息安全保障。
(7)數據提供者利益保障。數據必須經過授權才能夠使用。 DOA 數據的使用過程就是數據的授權過程。通過計帳機制和計費手段,以及數據授權使用溯源機制,可以充分保障數據提供者的利益,也使得網際網路和大數據時代的信息交易、數據套用等變得有序和有法可依。