數據湖或hub的概念最初是由大數據廠商提出的,表面上看,數據都是承載在基於可向外擴展的HDFS廉價存儲硬體之上的。但數據量越大,越需要各種不同種類的存儲。最終,所有的企業數據都可以被認為是大數據,但並不是所有的企業數據都是適合存放在廉價的HDFS集群之上的。
基本介紹
- 中文名:數據湖
- 外文名:HUB
簡介,價值,隱憂,
簡介
數據湖或hub的概念最初是由大數據廠商提出的,表面上看,數據都是承載在基於可向外擴展的HDFS廉價存儲硬體之上的。但數據量越大,越需要各種不同種類的存儲。最終,所有的企業數據都可以被認為是大數據,但並不是所有的企業數據都是適合存放在廉價的HDFS集群之上的。
價值
數據湖的一部分價值是把不同種類的數據匯聚到一起,另一部分價值是不需要預定義的模型就能進行數據分析。現在的大數據架構是可擴展的,並且可以為用戶提供越來越多的實時分析。在商業智慧型(BI)和數據倉庫還沒有被淘汰的今天,大數據分析和大數據湖正在向更多類型的實時智慧型服務發展,這些實時的智慧型服務可以支持實時的決策制定。
隱憂
數據湖架構面向多數據源的信息存儲,包括物聯網在內。大數據分析或歸檔可通過訪問數據湖處理或交付數據子集給請求用戶。但數據湖架構可不僅僅是一個巨大的磁碟而已。
數據湖的數據持久性和安全卻是需要優先考慮的因素。很多選擇都能交付一個合理的成本,但並非所有都能滿足數據湖的長期存儲需求。挑戰就在於數據湖中很多數據永遠不會刪除。這種數據的價值在於它要拿來分析以及和年復一年的數據進行比對,這將抵消其容量成本。
在數據湖架構中,信息安全作為另一項挑戰往往被人忽視。相比於其它,這種類型的存儲安全要更加重要。數據湖架構從定義上看是將所有的雞蛋放在一個籃子中。而如果其中一個存儲庫的安全被破壞,那么未知方將可能訪問所有數據。很多數據都以易於讀取的格式存儲,像是JPEG、PDF檔案——如果你的數據湖架構不夠安全,那么信息損失很容易。