《大數據技術叢書:Storm實時數據處理》通過豐富的實例,系統講解Storm的基礎知識和實時數據處理的最佳實踐方法,內容涵蓋Storm本地開發環境搭建、日誌流數據處理、Trident、分散式遠程過程調用、Topology在不同程式語言中的實現方法、Storm與Hadoop的集成方法、實時機器學習、持續交付和如何在AWS上部署Storm。此外,《大數據技術叢書:Storm實時數據處理》旨在圍繞Storm技術促進DevOps實踐,使讀者能夠開發Storm解決方案,同時可靠地交付有價值的產品。
基本介紹
- 書名:大數據技術叢書:Storm實時數據處理
- 作者:安德森 (Quinton Anderson)
- 原版名稱:Storm Real-Time Processing Cookbook
- 譯者:盧譽聲
- ISBN:9787111466635
- 類別:科技
- 頁數:191
- 出版社:機械工業出版社
- 出版時間:2014年6月1日
- 開本:16
基本介紹,內容簡介,作者簡介,圖書目錄,
基本介紹
內容簡介
《大數據技術叢書:Storm實時數據處理》適合想學習實時處理技術或者想通過Storm實現實時處理方法的開發者閱讀。
作者簡介
作者:(澳大利亞)安德森(Quinton Anderson) 譯者:盧譽聲
安德森(Quinton Anderson),軟體工程師,專注實時計算系統開發。他在構建防禦系統的實時通信系統,以及財務與銀行服務中的企業級應用程式方面有豐富的經驗。他熱衷於開源,是Storm社區的活躍分子,樂於交付各種基於Storm的解決方案。盧譽聲,資深軟體開發工程師,現就職于思科系統(中國)研發中心雲產品研發部。他曾參與多個項目協定級別定義、SDK及伺服器後端和前端的設計與研發,在下一代實時雲計算協作平台的研發過程中積累了豐富的敏捷實踐與開發經驗。此外,他還從事C/C++開發工作,對Clojare、JavaScript、Lua,以及移動開發平台等也有一定研究。
安德森(Quinton Anderson),軟體工程師,專注實時計算系統開發。他在構建防禦系統的實時通信系統,以及財務與銀行服務中的企業級應用程式方面有豐富的經驗。他熱衷於開源,是Storm社區的活躍分子,樂於交付各種基於Storm的解決方案。盧譽聲,資深軟體開發工程師,現就職于思科系統(中國)研發中心雲產品研發部。他曾參與多個項目協定級別定義、SDK及伺服器後端和前端的設計與研發,在下一代實時雲計算協作平台的研發過程中積累了豐富的敏捷實踐與開發經驗。此外,他還從事C/C++開發工作,對Clojare、JavaScript、Lua,以及移動開發平台等也有一定研究。
圖書目錄
譯者序
前言
第1章搭建開發環境
1.1簡介
1.2搭建開發環境
1.3分散式版本控制
1.4創建“HelloWorld”Topology
1.5創建Storm集群——配置機器
1.6創建Storm集群——配置Storm
1.7獲取基本的點擊率統計信息
1.8對Bolt進行單元測試
1.9實現集成測試
1.10將產品部署到集群
第2章日誌流處理
2.1簡介
2.2創建日誌代理
2.3創建日誌Spout
2.4基於規則的日誌流分析
2.5索引與持久化日誌數據
2.6統計與持久化日誌統計信息
2.7為日誌流集群創建集成測試
2.8創建日誌分析面板
第3章使用Trident計算單詞重要度
3.1簡介
3.2使用Twitter過濾器創建URL流
3.3從檔案中獲取整潔的詞流
3.4計算每個單詞的相對重要度
第4章分散式遠程過程調用
4.1簡介
4.2通過DPRC實現所需處理流程
4.3對TridentTopology進行集成測試
4.4實現滾動視窗Topology
4.5在集成測試中模擬時間
第5章在不同語言中實現Topology
5.1簡介
5.2在Qt中實現多語言協定
5.3在Qt中實現SplitSentenceBolt
5.4在Ruby中實現計數Bolt
5.5在Clojure中實現單詞計數Topology
第6章Storm與Hadoop集成
6.1簡介
6.2在Hadoop中實現TF—IDF算法
6.3持久化來自Storm的檔案
6.4集成批處理與實時視圖
第7章實時機器學習
7.1簡介
7.2實現事務性Topology
7.3在R中創建隨機森林分類模型
7.4基於隨機森林的事務流業務分類
7.5在R中創建關聯規則模型
7.6創建推薦引擎
7.7實時線上機器學習
第8章持續交付
8.1簡介
8.2搭建CI伺服器
8.3搭建系統環境
8.4定義交付流水線
8.5實現自動化驗收測試
第9章在AWS上部署Storm
9.1簡介
9.2使用Pallet在AWS上部署Storm
9.3搭建虛擬私有雲
9.4使用Vagrant在虛擬私有雲上部署Storm
前言
第1章搭建開發環境
1.1簡介
1.2搭建開發環境
1.3分散式版本控制
1.4創建“HelloWorld”Topology
1.5創建Storm集群——配置機器
1.6創建Storm集群——配置Storm
1.7獲取基本的點擊率統計信息
1.8對Bolt進行單元測試
1.9實現集成測試
1.10將產品部署到集群
第2章日誌流處理
2.1簡介
2.2創建日誌代理
2.3創建日誌Spout
2.4基於規則的日誌流分析
2.5索引與持久化日誌數據
2.6統計與持久化日誌統計信息
2.7為日誌流集群創建集成測試
2.8創建日誌分析面板
第3章使用Trident計算單詞重要度
3.1簡介
3.2使用Twitter過濾器創建URL流
3.3從檔案中獲取整潔的詞流
3.4計算每個單詞的相對重要度
第4章分散式遠程過程調用
4.1簡介
4.2通過DPRC實現所需處理流程
4.3對TridentTopology進行集成測試
4.4實現滾動視窗Topology
4.5在集成測試中模擬時間
第5章在不同語言中實現Topology
5.1簡介
5.2在Qt中實現多語言協定
5.3在Qt中實現SplitSentenceBolt
5.4在Ruby中實現計數Bolt
5.5在Clojure中實現單詞計數Topology
第6章Storm與Hadoop集成
6.1簡介
6.2在Hadoop中實現TF—IDF算法
6.3持久化來自Storm的檔案
6.4集成批處理與實時視圖
第7章實時機器學習
7.1簡介
7.2實現事務性Topology
7.3在R中創建隨機森林分類模型
7.4基於隨機森林的事務流業務分類
7.5在R中創建關聯規則模型
7.6創建推薦引擎
7.7實時線上機器學習
第8章持續交付
8.1簡介
8.2搭建CI伺服器
8.3搭建系統環境
8.4定義交付流水線
8.5實現自動化驗收測試
第9章在AWS上部署Storm
9.1簡介
9.2使用Pallet在AWS上部署Storm
9.3搭建虛擬私有雲
9.4使用Vagrant在虛擬私有雲上部署Storm