實時大數據

隨著數據體積的越來越大,實時處理成為了許多機構需要面對的首要挑戰。

當今世界,公司的日常運營經常會生成TB級別的數據。數據來源囊括了網際網路裝置可以捕獲的任何類型數據,網站、社交媒體、交易型商業數據以及其它商業環境中創建的數據。考慮到數據的生成量,實時大數據處理成為了許多機構需要面對的首要挑戰。

基本介紹

  • 中文名:實時大數據
  • 類型:數據
  • 特點:許多機構需要面對的首要挑戰
  • 包括:網站、社交媒體、交易型商業
開源大數據的發展情況,實時大數據工具,實時大數據技術,

開源大數據的發展情況

谷歌,於2003年起發布一系列論文:
1. 《The Google File System 》
2. 《MapReduce: Simplified Data Processing onLarge Clusters》
3.《Bigtable: A Distributed Storage System for Structured Data》
Hadoop HDFS、HadoopMapReduce, HBase、Hive 漸次誕生,早期Hadoop生態圈逐步形成。
Hadoop MapReduce不適合實時計算:
1. 任務分配Server不會將信息Push到計算Node,而是讓計算Node通過心跳去Pull任務。
2. 基於框架的通用性,MapReduce代碼也會在HDFS中傳送,在各計算Node展開,再通過啟動新JVM進程裝載並運行。
3. 類似的JVM進程啟停有5、6次之多。
4. Reduce Task只能在所有Map Task完成之後才能啟動。
在HadoopMapReduce框架之外,衍生出了一批低延遲的大數據分析項目:Cloudera Impala, MapR Drill, HBase Coprocessor, Spark。

實時大數據工具

一體機資料庫/數據倉庫:
IBM PureData(Netezza), OracleExadata, SAP Hana等等
數據倉庫:
Teradata AsterData, EMC GreenPlum, HP Vertica 等等
數據集市:
QlikView、 Tableau、Yonghong Data Mart 等等

實時大數據技術

1. 分散式計算
2. 分散式通信
3. 記憶體計算
4. 列存儲
5. 庫內計算

相關詞條

熱門詞條

聯絡我們