大數據實時計算與套用

大數據實時計算與套用

《大數據實時計算與套用》是2018年7月清華大學出版社出版的圖書,作者是吳斌。

基本介紹

  • 中文名:大數據實時計算與套用
  • 作者:吳斌
  • 出版社:清華大學出版社
  • 出版時間:2018年7月
  • 定價:36 元
  • ISBN:9787302503217
內容簡介,圖書目錄,

內容簡介

本書定位於大數據專業核心技術——實時計算,重點討論大數據套用場景中的數據特點和套用需求的實時流計算技術。
本書通過對分散式實時計算系統的分析,將學習部分按功能性質劃分成四個模組,分別為Kafka數據流處理模組、Strom實時計算模組、HBase數據存儲模組和Zookeeper分散式協調模組。對此四個工作模組進行教學化處理,形成HBase基礎操作、Zookeeper集群管理、配置Storm集群等核心課程體系,並配以實例使學習者便於理解,易於上手,掌握實時計算Storm相關的基礎知識和實際業務系統的開發能力。
本書主要針對具有一定軟體編程基礎(特別是數據技術)的學生和專業工程師,特別是數據科學、數據分析專業的高年級本科學生以及從事與數據相關的高級技術人員的讀者人群。

圖書目錄

第1章分散式實時計算系統
1.1分散式的概念
1.1.1分散式系統
1.1.2分散式計算
1.2分散式通信
1.2.1分散式通信基礎
1.2.2訊息佇列
1.2.3Storm計算模型
1.3分散式實時計算系統架構
1.3.1數據獲取——Kafka
1.3.2數據處理——Storm
1.3.3數據存儲——HBase
1.4系統架構
本章小結
習題
第2章初識Kafka
2.1什麼是Kafka
2.1.1Kafka概述
2.1.2使用場景
2.1.3Kafka基本特性
2.1.4性能
2.1.5總結
2.1.6Kafka在LinkedIn中的套用
2.2Topics和logs
2.3分散式——consumers和producers
本章小結
習題
第3章Kafka環境搭建
3.1伺服器搭建
3.2開發環境搭建
本章小結
習題
第4章Kafka訊息傳送
4.1訊息傳輸的事務定義
4.2性能最佳化
4.2.1訊息集
4.2.2數據壓縮
4.3生產者和消費者
4.3.1Kafka生產者的訊息傳送
4.3.2Kafka consumer
4.4主從同步
4.5客戶端API
4.5.1Kafka producer API
4.5.2Kafka consumer API
4.6訊息和日誌
本章小結
習題
第5章Zookeeper開發
5.1Zookeeper的來源
5.2Zookeeper基礎
5.2.1基本概念
5.2.2Zookeeper架構
5.3Zookeeper的API
5.3.1建立會話
5.3.2管理權
5.3.3節點註冊
5.3.4任務佇列化
5.4狀態變化處理
5.5故障處理
5.6Zookeeper集群管理
5.6.1集群配置
5.6.2集群管理
本章小結
習題
第6章初識HBase
6.1什麼是HBase
6.1.1大數據的背景
6.1.2HBase架構
6.1.3HBase存儲API
6.2HBase部署
6.2.1HBase配置及安裝
6.2.2運行模式
6.2.3集群操作
本章小結
習題
第7章HBase基礎操作
7.1CRUD操作
7.1.1Put操作
7.1.2Get操作
7.1.3Delete操作
7.2批處理操作
7.3行鎖
7.4掃描
7.5其他操作
7.5.1HTable方法
7.5.2Bytes方法
本章小結
習題
第8章HBase高階特性
8.1過濾器
8.1.1什麼是過濾器
8.1.2比較過濾器
8.1.3專用過濾器
8.1.4附加過濾器
8.2計數器
8.2.1什麼是計數器
8.2.2單計數器及多計數器
8.3協處理器
8.3.1什麼是協處理器
8.3.2協處理器API套用
本章小結
習題
第9章管理HBase
9.1HBase數據描述
9.1.1表
9.1.2列簇
9.1.3屬性
9.2表管理API
9.2.1基礎操作
9.2.2集群管理
本章小結
習題
第10章初識Storm
10.1什麼是Storm
10.1.1Storm能做什麼
10.1.2Storm的特性
10.1.3Storm分散式計算結構
10.2構建topology
10.2.1Storm的基本概念
10.2.2構建topology
10.2.3示例: 單詞計數
10.3Storm並發機制
10.3.1topology並發機制
10.3.2給topology增加Worker
10.3.3配置Executor和task
10.4數據流分組的理解
10.5訊息的可靠處理
10.5.1訊息被處理後會發生什麼
10.5.2Storm可靠性的實現方法
10.5.3調整可靠性
本章小結
習題
第11章配置Storm集群
11.1Storm集群框架介紹
11.1.1理解nimbus守護進程
11.1.2supervisor守護進程的工作方式
11.1.3DRPC服務工作機制
11.1.4Storm的UI簡介
11.2在Linux上安裝Storm
11.2.1搭建Zookeeper集群
11.2.2安裝Storm依賴庫
11.2.3下載並解壓Storm發布版本
11.2.4修改storm.yaml配置檔案
11.2.5啟動Storm後台進程
11.3將topology提交到集群上
本章小結
習題
第12章Trident和TridentML
12.1Trident topology
12.1.1Trident綜述
12.1.2Reach
12.1.3欄位和元組
12.1.4狀態
12.1.5Trident topology的執行
12.2Trident接口
12.2.1綜述
12.2.2本地分區操作
12.2.3重新分區操作
12.2.4群聚操作
12.2.5流分組操作
12.2.6合併和連線
12.3Trident狀態
12.3.1事務spouts
12.3.2透明事務spouts
12.3.3非事務spouts
12.3.4Spout和State總結
12.3.5State套用接口
12.3.6MapState的更新
12.3.7執行MapState
12.4TridentML: 基於storm的實時線上機器學習庫
本章小結
習題
第13章DRPC模式
13.1DRPC概述
13.2DRPC自動化組件
13.3本地模式DRPC
13.4遠程模式DRPC
13.5一個更複雜的例子
本章小結
習題
第14章Storm實戰
14.1網站頁面瀏覽量計算
14.1.1背景介紹
14.1.2體系結構
14.1.3項目相關介紹
14.1.4Storm編碼實現
14.1.5運行topology
14.2網站用戶訪問量計算
14.2.1背景介紹
14.2.2Storm代碼實現
14.2.3運行topology
本章小結
習題
參考文獻

相關詞條

熱門詞條

聯絡我們