大數據實時計算與套用

內容簡介

本書定位於大數據專業核心技術——實時計算，重點討論大數據套用場景中的數據特點和套用需求的實時流計算技術。

本書通過對分散式實時計算系統的分析，將學習部分按功能性質劃分成四個模組，分別為Kafka數據流處理模組、Strom實時計算模組、HBase數據存儲模組和Zookeeper分散式協調模組。對此四個工作模組進行教學化處理，形成HBase基礎操作、Zookeeper集群管理、配置Storm集群等核心課程體系，並配以實例使學習者便於理解，易於上手，掌握實時計算Storm相關的基礎知識和實際業務系統的開發能力。

本書主要針對具有一定軟體編程基礎（特別是數據技術）的學生和專業工程師，特別是數據科學、數據分析專業的高年級本科學生以及從事與數據相關的高級技術人員的讀者人群。

圖書目錄

第1章分散式實時計算系統

1.1分散式的概念

1.1.1分散式系統

1.1.2分散式計算

1.2分散式通信

1.2.1分散式通信基礎

1.2.2訊息佇列

1.2.3Storm計算模型

1.3分散式實時計算系統架構

1.3.1數據獲取——Kafka

1.3.2數據處理——Storm

1.3.3數據存儲——HBase

1.4系統架構

本章小結

習題

第2章初識Kafka

2.1什麼是Kafka

2.1.1Kafka概述

2.1.2使用場景

2.1.3Kafka基本特性

2.1.4性能

2.1.5總結

2.1.6Kafka在LinkedIn中的套用

2.2Topics和logs

2.3分散式——consumers和producers

本章小結

習題

第3章Kafka環境搭建

3.1伺服器搭建

3.2開發環境搭建

本章小結

習題

第4章Kafka訊息傳送

4.1訊息傳輸的事務定義

4.2性能最佳化

4.2.1訊息集

4.2.2數據壓縮

4.3生產者和消費者

4.3.1Kafka生產者的訊息傳送

4.3.2Kafka consumer

4.4主從同步

4.5客戶端API

4.5.1Kafka producer API

4.5.2Kafka consumer API

4.6訊息和日誌

本章小結

習題

第5章Zookeeper開發

5.1Zookeeper的來源

5.2Zookeeper基礎

大數據實時計算與套用

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條