數據基礎設施

數據基礎設施

數據基礎設施是傳統IT基礎設施面向數位化、智慧型化轉演進的必然結果。新技術如AI、5G、IoT的廣泛套用,推動了數據爆發增長。數據已經成為數字經濟時代的生產要素,驅動著國家、社會和企業的數位化轉型。圍繞數據為中心,深度整合計算、存儲、網路和軟體資源,以充分挖掘數據價值為目標,使數據“存得下、流得動、用得好”所設計建設的數據中心和邊緣基礎設施被稱為數據基礎設施。

基本介紹

  • 中文名:數據基礎設施
  • 外文名:Intelligent Data Infrastructure
  • 構成:存儲、計算、網路、作業系統、資料庫、大數據等
  • 特徵:融合、協同、智慧型、安全、開放
背景,業務需求,技術革新,定義,範圍,特徵,融合,協同,智慧型,安全,開放,套用,

背景

數據是數字經濟時代的核心生產要素
社會已經迎來了繼農業經濟、工業經濟之後的數字經濟時代,如同農業時代的土地、勞動力,工業時代的技術、資本一樣,數據已經成為數字經濟時代的生產要素,而且是最核心的生產要素,數據甚至被認為已經超過石油的價值。數據驅動型創新正在向經濟社會、科技研發等各個領域擴展,成為國家創新發展的關鍵形式和重要方向。包含數據因素的生產函式可以用如下公式表達:
Y =F(A, D, K, L, T)
Y: 經濟產出 F:生產函式 A:技術進步 L:勞動力 T:土地 K:資本 D:數據

業務需求

隨著社會數位化、智慧型化加速發展,新技術如AI、5G、IoT的廣泛套用,以及大量新的硬體與套用帶來數據量快速增長的同時,也讓數據類型越來越多樣化。生產、採集和保存儘可能多的數據,用於全量分析以洞察先機。到2025年,全球將產生180ZB(1ZB = 1,000,000,000,000,000,000,000Byte)的數據。海量數據蘊含巨大的價值,也給存儲系統帶來了前所未有的挑戰。
4K視頻已經普及,8K、AR、VR時代即將到來。在工業和信息化部、國家廣播電視總局、中央廣播電視總台聯合發布的《超高清視頻產業發展行動計畫(2019-2022年)》中提出“4K先行、兼顧8K”的總體技術路線,使廣電行業IT基礎設施在高可靠的基礎上,向著高性能、低延遲、集約化的方向轉型,尤其對存儲平台的能力帶來巨大挑戰。
5G通過提升連線速率和降低時延,使單位時間內產生的數據量急劇增長。物聯網將得到較大程度的發展,人與物、物與物之間的連線將急劇增多,數據採集渠道將更加豐富,如聯網汽車、可穿戴設備、機器人等,這也對數據存儲與採集技術提出更高要求。同時,5G時代下越來越多的IoT設備將通過邊緣計算進行存儲、處理和分析,雲、邊協同能力變得尤為重要。
人工智慧(AI)和大數據的套用改變了數據的存儲周期和形態。比如,公安部《公安機關現場執法視音頻記錄工作規定》明確提出,現場執法視音頻資料的保存期限原則上應當不少於六個月,以構築“更長證據鏈”。其次,AI需要全數據訓練、處理和分析。在數據規模化增長的趨勢下,可以按溫度來定義不同訪問頻率的數據:經常被訪問的數據稱為熱數據,而較少被訪問的數據稱為冷數據,處於中間狀態的稱為溫數據。套用AI之後,需要數據能在冷、溫、熱之間隨時進行切換。

技術革新

近年來一系列的技術革新和新技術的出現,使得傳統IT基礎設施往數據基礎設施演進成為可能。例如,人工智慧(AI)技術在數據領域的套用大大降低了大規模集群的運維難度;分散式存儲技術打通了塊、檔案、對象和HDFS等不同的存儲協定,使不同類型不同來源的數據集中存儲成為可能;全快閃記憶體和SCM等新型存儲介質的出現使存儲不再成為系統的性能瓶頸;GPU、NPU、ARM等非x86架構晶片的蓬勃發展為數據帶來多樣化算力。在執行不同類型的數據運算時,異構算力會顯著提升運算效率。因此,無論是硬體系統還是資料庫、大數據等軟體系統都將支持異構算力作為演進的關鍵點之一。

定義

數據基礎設施是傳統IT基礎設施的演進,是圍繞數據為中心,深度整合計算、存儲、網路和軟體資源,以充分挖掘數據價值為目標所設計建設的數據中心IT基礎設施。數據基礎設施涵蓋接入、存儲、計算、管理和數據使能五個領域,通過匯聚各方數據,提供“采-存-算-管-用”全生命周期的支撐能力,構建全方位的數據安全體系,打造開放的數據生態環境,讓數據“存得下、流得動、用得好,將數據資源轉變為數據資產,最大化數據價值。

範圍

數據基礎設施由基礎設施層和數據管理層組成,其中基礎設施層包括存儲、計算、網路等硬體設施,數據管理層由作業系統、資料庫系統及大數據系統組成,構成支撐數據存儲及數據全生命周期管理的軟體設施。
在基礎設施層,區別於傳統的硬體設施,數據基礎設施將引入多樣性計算,從單一算力到多樣性算力,匹配多樣性數據,讓計算更高效;存儲也會從單一類型存儲走向多樣性融合存儲,構建融合處理基礎,應對存儲效率低、管理複雜的問題。
在數據管理層,將結合大數據系統和資料庫系統提供的“采-存-算-管-用”全流程的軟體支撐,從單一處理向多源數據智慧型協同、融合處理髮展,應對更實時和智慧型的數據套用需求,加速實現數據價值。
數據基礎設施需要面向數據構建全方位的安全體系,保障數據端到端的安全和隱私合規,打造開放的數據生態環境,推動全社會數據的共享和開放,創造更大的價值。
數據基礎設施

特徵

數據基礎設施具備以下5個特徵:融合、協同、智慧型、安全、開放。

融合

融合的特徵主要體現在基於在存儲、資料庫、大數據等技術領域的突破,打破“存儲內部系統牆”、“資料庫與存儲鏈路牆”、“大數據與存儲配置牆”、“資料庫與大數據協同牆”四堵牆。
  • 異構算力:除x86外,還支持ARM、GPU、NPU等多樣性算力,以匹配對多樣性數據處理的需求。
  • 存算融合:存算融合指存儲層與計算層的融合。數據的處理直接在存儲系統中進行,處理結果返回給計算層。最大限度地減少數據在存儲層和計算層之間搬遷,提升計算效率。
  • 數存融合:資料庫與存儲融合指採用計算-存儲分離部署的架構,資料庫計算和存儲資源可以靈活配置,根據業務需要各自獨立進行彈性擴展,使得資源匹配更精準、更合理,大幅提升資源利用率。
  • 協定融合:協定融合指將邏輯上將存放在不同地方、不同協定的數據進行集中。並通過開放式數據接入框架,支持多種套用和數據源的接入,並能夠靈活擴展接入第三方數據源。
  • 格式融合:數據基礎設施為上層套用和客戶端提供標準接口,支持多種服務,如塊存儲服務、檔案存儲服務、對象存儲服務和大數據存儲服務。消除傳統數據基礎設施中多類型存儲系統煙囪式構建而形成套用孤島。實現一份數據同時滿足資料庫、大數據、AI等多種業務的分析需求。
數據基礎設施

協同

在硬體、算力、數據等趨於融合的過程中,多種數據源以及與之相關聯的特定的數據處理技術還是長期並存的,需要對異構異地數據源進行協同分析。數據基礎設施包含軟硬協同、分析協同和雲邊協同。
  • 軟硬協同:傳統IT基礎設施在跨數據源查詢時,存儲節點和計算節點間需要進行大量不必要的數據傳輸,嚴重影響SQL引擎性能。軟硬協同採用運算元下推和計算任務下推等技術,將運算元和計算任務下推到數據源,避免不必要的數據傳輸,提升查詢性能。
  • 分析協同:分析協同包含跨數據源協同和跨地域協同。跨數據源協同顆實現分散在多個數據源的多張數據表進行交叉分析。如常見的數據源:Hive、SparkSQL、MPPDB、ES、HBase、Oracle、MySQL等。跨地域協同實現分散在異地數據中心的多張數據表進行碰撞分析。可以像訪問本地數據表一樣訪問異地數據表,並可以將分散在多地的數據表進行碰撞操作。
  • 雲邊協同:在“雲—邊—端”三級的架構中。雲側和邊側均有數據持久化存儲介質,可用於臨時或長期地保存業務數據。雲邊協同分析,即實現雲側和邊側之間特殊跨域、跨源數據調用和協同分析。

智慧型

數據智慧型是一個跨學科的研究領域,它結合大規模數據處理、數據挖掘、機器學習、人機互動、可視化等多種技術,從數據中提煉、發掘、獲取有揭示性和可操作性的信息,使數據“智慧型”,為人們在基於數據制定決策或執行任務時提供有效的智慧型支持。
  • 智慧型OAM:將人工智慧(AI)技術引入到數據基礎設施運維管理層,通過多維度智慧型風險預測與智慧型調優,實現“規劃、建設、運維、最佳化”存儲全生命周期自動化管理與智慧型運維,提升數據中心運營效率。
  • 智慧型無損網路:RDMA技術是數據設施網路層推薦採用的技術。相比TCP/IP技術,RDMA可以顯著降低伺服器和存儲之間數據傳輸的時延。RDMA協定對物理網路的丟包及其敏感,當丟包率大於10-3時,網路吞吐量急劇下降。因此智慧型無損網路應該具備零丟包、高吞吐和超低時延的特徵。
  • 智慧型數據存儲:基於AI晶片提供的強大的運算能力,通過對業務負載、設備健康狀態等持續學習,基於智慧型學習強化的智慧型讀快取,能夠對業務模型預測更準確,實現更高的讀命中率,保障複雜業務模型下系統高性能;基於智慧型學習強化的智慧型服務質量控制(QoS),對系統內各種不同負載進行識別、分類,保障關鍵業務,抑制非關鍵業務,保證業務平穩運行;基於智慧型學習強化的數據縮減,對數據模式進行識別,合理統籌線上重刪與後重刪,以及針對不同數據模式採用不同的縮減算法 ,實現縮減比和性能最優。
  • 智慧型數據處理:將人工智慧(AI)技術融入數據處理的全生命周期,實現自運維、自管理、自調優、故障自診斷和自愈。在交易、分析和混合負載場景下,基於深度強化學習的算法,提升數據處理整體性能和穩定性

安全

數據基礎設施承載著海量的數據,包括業務的核心數據以及隱私數據。這些數據支撐著企業的所有業務和運營,關係著企業的生命線。需要構建全方位的數據安全體系,幫助企業實現數據在全生命周期過程中的數據不丟失、不泄露、不被篡改、業務永遠線上、可追溯和隱私合規。
  • 平台安全:系統自身的安全和防攻擊性是安全防護體系的基石。基礎設施平台安全包括介質、晶片、板卡等硬體設備安全,作業系統、資料庫、固件等軟體安全,以及網路、協定等安全。
  • 數據安全:是指基礎設施為支撐數據存儲、傳輸、處理等全生命周期過程提供的數據安全保護能力,如數據加密、數據隔離、訪問控制、完整性校驗等。數據融合背景下,由於缺乏有效的安全訪問控制,不同網路融合、各種數據匯集,數據泄露及濫用風險成為主要矛盾之一。保障數據的安全,要回答好三個問題:數據在哪裡,安不安全;數據去哪裡,該不該去;數據誰在用,該不該用。
  • 隱私合規:是指基礎設施為保障數據存儲、移動、再利用等過程中的合規提供的能力,如數據脫敏、違規分析、密文搜尋、同態加密等。以歐盟GDPR條例為例,二級存儲產品將生產業務的備份、複製、歸檔數據統一存儲、統一管理,並及時將副本數據用於開發、測試和數據分析,在這種端到端、多方使用數據的場景下,做好數據的訪問控制和脫敏變得尤為重要。

開放

數據產業是一個有眾多細分領域、眾多參與者的產業,它需要數據、產品和服務間的緊密協同,而數據基礎設施作為其中的關鍵支撐環節,涉及到硬體產業、軟體產業,以及各類開源技術、閉源技術等,這就決定了數據基礎設施具有生態複雜性,需要很強的生態協同能力,並通過技術和產業的開放性來吸引更多的參與者以保持生態的活力。
  • 技術開放:產業鏈的參與者應保持開放合作的態度,密切配合,共同攻克技術斷點。硬體部件之間、軟體模組之間解耦合有助於整合整個產業的能力,做大產業空間。為此,建立一套技術標準體系和規範接口是非常必要的。
  • 產業合作:產業鏈不同環節的參與者需要建立起高效的協作機制,形成良性互動的合作關係,以實現產業的持續擴大。

套用

數據基礎設施已經在許多行業中發揮了重要作用。總的來說,其套用場景可以劃分為三類:
  • 智慧型生產交易:生產交易場景有運營商Billing/CRM、金融核心、企業ERP等。核心生產交易要求數據的快速處理、安全可靠。這要求數據基礎設施採用數存融合、軟硬協同、人工智慧和智慧型無損網路等相關技術,實現計算存儲資源靈活擴展,消除網路和I/O瓶頸,提升業務查詢效率。
  • 智慧型數據湖:數據湖場景有政務大數據、交通大數據等。智慧型數據湖要求消除數據孤島,打通各個系統。這要求數據基礎設施具備數存融合能力,並支持運算元下推、協定互通等以提升分析效率。
  • 智慧型邊緣:邊緣場景有煤礦、安監、海關、工廠等。智慧型邊緣要求在貼近數據生產的物理位置部署,具備計算、網路、存儲、安全和AI的高度集成化,並且支持即插即用和無人值守等極簡運維方式。

相關詞條

熱門詞條

聯絡我們