數據基礎設施是傳統IT基礎設施面向數位化、智慧型化轉演進的必然結果。新技術如AI、5G、IoT的廣泛套用,推動了數據爆發增長。數據已經成為數字經濟時代的生產要素,驅動著國家、社會和企業的數位化轉型。圍繞數據為中心,深度整合計算、存儲、網路和軟體資源,以充分挖掘數據價值為目標,使數據“存得下、流得動、用得好”所設計建設的數據中心和邊緣基礎設施被稱為數據基礎設施。
基本介紹
- 中文名:數據基礎設施
- 外文名:Intelligent Data Infrastructure
- 構成:存儲、計算、網路、作業系統、資料庫、大數據等
- 特徵:融合、協同、智慧型、安全、開放
背景
業務需求
技術革新
定義
範圍
特徵
融合
- 異構算力:除x86外,還支持ARM、GPU、NPU等多樣性算力,以匹配對多樣性數據處理的需求。
- 存算融合:存算融合指存儲層與計算層的融合。數據的處理直接在存儲系統中進行,處理結果返回給計算層。最大限度地減少數據在存儲層和計算層之間搬遷,提升計算效率。
- 數存融合:資料庫與存儲融合指採用計算-存儲分離部署的架構,資料庫計算和存儲資源可以靈活配置,根據業務需要各自獨立進行彈性擴展,使得資源匹配更精準、更合理,大幅提升資源利用率。
- 協定融合:協定融合指將邏輯上將存放在不同地方、不同協定的數據進行集中。並通過開放式數據接入框架,支持多種套用和數據源的接入,並能夠靈活擴展接入第三方數據源。
- 格式融合:數據基礎設施為上層套用和客戶端提供標準接口,支持多種服務,如塊存儲服務、檔案存儲服務、對象存儲服務和大數據存儲服務。消除傳統數據基礎設施中多類型存儲系統煙囪式構建而形成套用孤島。實現一份數據同時滿足資料庫、大數據、AI等多種業務的分析需求。
協同
- 軟硬協同:傳統IT基礎設施在跨數據源查詢時,存儲節點和計算節點間需要進行大量不必要的數據傳輸,嚴重影響SQL引擎性能。軟硬協同採用運算元下推和計算任務下推等技術,將運算元和計算任務下推到數據源,避免不必要的數據傳輸,提升查詢性能。
- 分析協同:分析協同包含跨數據源協同和跨地域協同。跨數據源協同顆實現分散在多個數據源的多張數據表進行交叉分析。如常見的數據源:Hive、SparkSQL、MPPDB、ES、HBase、Oracle、MySQL等。跨地域協同實現分散在異地數據中心的多張數據表進行碰撞分析。可以像訪問本地數據表一樣訪問異地數據表,並可以將分散在多地的數據表進行碰撞操作。
- 雲邊協同:在“雲—邊—端”三級的架構中。雲側和邊側均有數據持久化存儲介質,可用於臨時或長期地保存業務數據。雲邊協同分析,即實現雲側和邊側之間特殊跨域、跨源數據調用和協同分析。
智慧型
- 智慧型OAM:將人工智慧(AI)技術引入到數據基礎設施運維管理層,通過多維度智慧型風險預測與智慧型調優,實現“規劃、建設、運維、最佳化”存儲全生命周期自動化管理與智慧型運維,提升數據中心運營效率。
- 智慧型無損網路:RDMA技術是數據設施網路層推薦採用的技術。相比TCP/IP技術,RDMA可以顯著降低伺服器和存儲之間數據傳輸的時延。RDMA協定對物理網路的丟包及其敏感,當丟包率大於10-3時,網路吞吐量急劇下降。因此智慧型無損網路應該具備零丟包、高吞吐和超低時延的特徵。
- 智慧型數據存儲:基於AI晶片提供的強大的運算能力,通過對業務負載、設備健康狀態等持續學習,基於智慧型學習強化的智慧型讀快取,能夠對業務模型預測更準確,實現更高的讀命中率,保障複雜業務模型下系統高性能;基於智慧型學習強化的智慧型服務質量控制(QoS),對系統內各種不同負載進行識別、分類,保障關鍵業務,抑制非關鍵業務,保證業務平穩運行;基於智慧型學習強化的數據縮減,對數據模式進行識別,合理統籌線上重刪與後重刪,以及針對不同數據模式採用不同的縮減算法 ,實現縮減比和性能最優。
- 智慧型數據處理:將人工智慧(AI)技術融入數據處理的全生命周期,實現自運維、自管理、自調優、故障自診斷和自愈。在交易、分析和混合負載場景下,基於深度強化學習的算法,提升數據處理整體性能和穩定性
安全
- 平台安全:系統自身的安全和防攻擊性是安全防護體系的基石。基礎設施平台安全包括介質、晶片、板卡等硬體設備安全,作業系統、資料庫、固件等軟體安全,以及網路、協定等安全。
- 數據安全:是指基礎設施為支撐數據存儲、傳輸、處理等全生命周期過程提供的數據安全保護能力,如數據加密、數據隔離、訪問控制、完整性校驗等。數據融合背景下,由於缺乏有效的安全訪問控制,不同網路融合、各種數據匯集,數據泄露及濫用風險成為主要矛盾之一。保障數據的安全,要回答好三個問題:數據在哪裡,安不安全;數據去哪裡,該不該去;數據誰在用,該不該用。
- 隱私合規:是指基礎設施為保障數據存儲、移動、再利用等過程中的合規提供的能力,如數據脫敏、違規分析、密文搜尋、同態加密等。以歐盟GDPR條例為例,二級存儲產品將生產業務的備份、複製、歸檔數據統一存儲、統一管理,並及時將副本數據用於開發、測試和數據分析,在這種端到端、多方使用數據的場景下,做好數據的訪問控制和脫敏變得尤為重要。
開放
- 技術開放:產業鏈的參與者應保持開放合作的態度,密切配合,共同攻克技術斷點。硬體部件之間、軟體模組之間解耦合有助於整合整個產業的能力,做大產業空間。為此,建立一套技術標準體系和規範接口是非常必要的。
- 產業合作:產業鏈不同環節的參與者需要建立起高效的協作機制,形成良性互動的合作關係,以實現產業的持續擴大。
套用
- 智慧型生產交易:生產交易場景有運營商Billing/CRM、金融核心、企業ERP等。核心生產交易要求數據的快速處理、安全可靠。這要求數據基礎設施採用數存融合、軟硬協同、人工智慧和智慧型無損網路等相關技術,實現計算存儲資源靈活擴展,消除網路和I/O瓶頸,提升業務查詢效率。
- 智慧型數據湖:數據湖場景有政務大數據、交通大數據等。智慧型數據湖要求消除數據孤島,打通各個系統。這要求數據基礎設施具備數存融合能力,並支持運算元下推、協定互通等以提升分析效率。
- 智慧型邊緣:邊緣場景有煤礦、安監、海關、工廠等。智慧型邊緣要求在貼近數據生產的物理位置部署,具備計算、網路、存儲、安全和AI的高度集成化,並且支持即插即用和無人值守等極簡運維方式。