亞馬遜雲原生數據戰略(簡稱:原生數據戰略)是亞馬遜雲科技提出的技術架構,源於亞馬遜雲科技多年在雲計算、數據服務領域積累的數據驅動型企業方法論。2022年,亞馬遜雲科技提出了“雲原生數據戰略”,包括“3個支柱”和“1個基石”。雲原生數據戰略能夠幫助企業或組織應對數據的增長,為企業提供管理、訪問 、分析和處理數據的全面規劃,幫助企業構建一個完整的端到端數據解決方案,幫助企業成為“數據驅動型企業”。
亞馬遜雲原生數據戰略不是某一個或者幾個數據分析工具的堆砌,而是從數據戰略和技術架構的角度服務於整體業務數據在全部數據里程中所有的步驟,通過數據湖、雲原生資料庫、大數據分析和人工智慧工具整合的數據治理和安全控制能力才能夠完成。
基本介紹
- 中文名:亞馬遜雲原生數據戰略
- 所屬公司:亞馬遜雲科技
- 簡稱:原生數據戰略
- 所屬學科:計算機科學
- 適用領域:軟體工程、計算機、雲計算領域
主要價值,技術能力,主要構成,大事件,
主要價值
亞馬遜雲原生數據戰略通過“雲原生數據基礎設施”、“數據一體化融合”、“數據驅動智慧型創新”三個支柱與“數據治理與數據安全”一個基石,幫助企業或組織做出決策,實現發展,並能驅動業務創新,保障業務的穩定,控制風險。
技術能力
支柱一:雲原生數據基礎設施。通過雲原生數據服務構建數據基石。企業的數據的類型和規模正在不斷增長,而數據旅程的各個階段都需要由雲原生數據基礎設施來實現賦能,以提升系統的效率、可用性和可擴展性,並降低成本。
1.雲原生數據基礎設施包括資料庫、分析工具以及機器學習。專門為數據時代構建的雲原生資料庫可以幫助企業降低成本、提高性能並加快創新步伐。其次,通過先進的分析工具,能夠大規模處理結構化、非結構化和流式數據,利用雲原生的機器學習服務,為數據基礎設施賦能。2007年亞馬遜雲科技發表了 Dynamo 論文,2012年進而發布 DynamoDB 服務,開啟了亞馬遜電商全面遷移到雲原生資料庫的歷程。
2.套用和資料庫架構變遷是不分家的,亞馬遜電商從單體套用到 SOA 再到拆分為微服務架構,同時做了數據拆分,基於每個微服務不同的數據類型,數據訪問特點各開發團隊開始選擇適合自己的雲原生資料庫或分析服務,從套用到資料庫整體架構做到彈性、敏捷。如今,亞馬遜雲科技已逐步完善了不同類型的雲原生資料庫和數據分析服務,來滿足不同的套用場景,並利用 Aurora Babelfish 將遷移時間從數年壓縮至幾周,節約資料庫成本。Amazon Babelfish,能夠完成 T-SQL 語言(MS SQL Server 專用)的翻譯工作。有了 Babelfish 的“翻譯”,那些採用 SQL Server 資料庫開發的傳統套用,無縫遷移到 Amazon Aurora 雲原生資料庫,整個周期從數月經年縮短到幾周。
3.除了雲原生資料庫,雲原生數據基礎設施的另一個技術趨勢就是向無伺服器化演進。Servereless 的資料庫/分析服務具有易於自動擴容、成本靈活等優勢,能進一步減少管理的成本開銷。從 Aurora Severless V1/V2,再到 Redshift/EMR/MSK 的 Serverless 版本,有效提升業務敏捷性。
支柱二:數據一體化融合。打破數據孤島,通過整合化分析,讓數據在跨組織、跨部門、跨產品打通。企業需要全面了解其業務的真實情況,才能讓數據幫助企業在整個價值流程之中創造價值。數據一體化融合需要讓企業打破數據孤島,並以一種一體化的方式實現數據的共享與安全訪問,以解鎖不同企業用戶和不同目的的數據價值。企業可以通過“智慧型湖倉”架構實現這一目標,將湖、倉、庫連線成為一個整體,通過專門構建的數據分析服務實現正確的工具完成正確的任務,實現優勢整合與成本效益最大化。智慧型湖倉架構能夠打破數據孤島,構建數據湖,然後建立跨數據湖、數倉、資料庫等不同數據源的一體化分析能力。
智慧型湖倉架構1.0:亞馬遜雲原生數據戰略能將數據以任何規模存儲在 S3 數據湖,並針對不同的分析場景,採用專門構建的 Amazon 分析服務,以達到性能,最後進行跨不同數據源的統一分析。
智慧型湖倉架構2.0(數智聯動):亞馬遜雲原生數據戰略在智慧型湖倉在基礎上,增加數據分析和人工智慧聯動能力,為客戶解決數智聯動的挑戰。首先,所有用來做數據預加工的數據分析服務,都有無伺服器版本,工程師只需專注於數據處理的代碼效率和質量;用 SageMaker Studio 的新功能,算法團隊在一個統一的界面下,可以訪問數據加工和模型開發調試的工具,算法團隊能夠充分利用大數據團隊在數據處理方面已經取得的成果,避免重複勞動。
支柱三:數據驅動智慧型創新。數據驅動創新,通過人工智慧和機器學習構建企業創新引擎。雲原生數據戰略可以在數據旅程的所有階段推動企業創新。
1、找到合適業務場景。建議從個性化推薦、供需預測、工業自動化、圖像/視頻自動分析、智慧型語音助手等場景開始嘗試,可以提高工作效率、直接創造業務價值;
2、利用亞馬遜雲科技的開箱即用、訓練好的 AI SaaS 模型去做場景的驗證。其覆蓋文檔處理、機器視覺、聊天機器人、搜尋、推薦、語音、呼叫中心等7個橫向領域,以及工業、醫療健康、代碼開發等3個垂直領域;
3、機器學習基礎設施方面,亞馬遜雲科技支持所有主流機器學習框架,也提供加速器實例。機器學習工具方面,SageMaker 降低了機器學習開發的門檻,而 MLOps 藉助 SageMaker 的SDK 與 API,可以把機器學習開發的流程串聯,並與企業內部的工作審核流程相集成,去實現端到端的機器學習自動化;
4、亞馬遜雲原生數據戰略利用機器學習打造創新引擎,需要賦能更多人構建機器學習套用。亞馬遜雲科技與高校展開合作,開展機器學習大學的項目。同時,通過 Amazon DeepRacer 將機器學習的能力交到更多人手中,其次,在工具層面,Amazon SageMaker Canvas 可以讓更多人通過可視化的方式構建機器學習套用,而無需編寫代碼或有機器學習的經驗。
一個基石:數據安全與數據治理。通過數據產品與服務,簡化數據治理流程,並安全地使用數據。
1、亞馬遜雲科技能夠為企業提供雲計算環境,企業可以運用數據安全與訪問控制工具,幫助公司為其數據湖建立正確的數據治理結構,來集中定義和管理安全、治理和審核策略。使企業能夠在正確的時間向正確的用戶提供對數據的細粒度訪問,並有效地滿足其監管和法規要求。
2、亞馬遜雲科技提供全生命周期的數據治理結構,企業可以用 Lake Formation 實現數據的統一授權和安全管控;Data Mesh 數據格線能滿足企業全球數據安全合規和支持本地創新兩者兼得的需求,為雲原生資料庫戰略提供保障。
主要構成
第一大支柱:雲原生數據基礎設施
通過安全、性價比的雲原生數據服務構建數據基石。
第二大支柱:數據一體化融合
打破數據孤島,通過整合化分析,讓數據在跨組織、跨部門、跨產品打通。
第三大支柱:數據驅動智慧型創新
數據驅動創新,通過人工智慧和機器學習構建企業創新引擎。
一個基石:數據治理與數據安全
通過數據產品與服務,簡化數據治理流程,並安全地使用數據。
亞馬遜雲原生數據戰略幫助企業構建雲原生數據基礎設施,實現數據一體化融合,通過人工智慧等新技術構建企業創新引擎,規範數據治理並讓企業更安全地使用數據。從而能夠幫助企業或組織做出決策,實現發展,並能不斷驅動業務創新,保障業務的穩定,控制風險。
大事件
2022年12月20日,亞馬遜雲科技在2022re:Invent全球大會上發布了“亞馬遜雲原生數據戰略”。副總裁 Swami 揭秘雲原生數據戰略的三大關鍵要素介紹了亞馬遜雲科技在資料庫、數據分析和機器學習領域的最新創新,以及這些創新如何幫助企業構建基於“面向未來的數據基礎設施”、“跨組織的數據連結”和“數據普惠化”三個核心要素的端到端數據戰略,從而幫助企業將數據轉化為對業務有意義的見解和行動,驅動企業藉助數據推動下一波創新。