高性能分散式計算系統開發與實現:基於Hadoop,Scalding和Spark

高性能分散式計算系統開發與實現:基於Hadoop,Scalding和Spark

《高性能分散式計算系統開發與實現:基於Hadoop,Scalding和Spark》是2018年機械工業出版社出版的圖書,作者是斯里尼瓦沙。

基本介紹

  • 中文名:高性能分散式計算系統開發與實現:基於Hadoop,Scalding和Spark
  • 作者:斯里尼瓦沙
  • 譯者:王宏志
  • 出版社:機械工業出版社
  • ISBN:9787111601531
內容簡介,圖書目錄,作者簡介,

內容簡介

本書分兩部分,共8章,介紹了如何使用開源工具和技術開發與實現大規模分散式處理系統,涵蓋構建高性能分散式計算系統的方法和佳實踐。第 一部分(第1~4章)介紹了高性能分散式計算編程的基礎知識,包括分散式系統、Hadoop入門、Spark入門、Scalding入門等;第二部分(第5~8章)給出了使用Hadoop、Spark、Scalding的案例研究,涉及數據聚類、數據分類、回歸分析、推薦系統等。本書適合作為高等院校計算機相關專業的教材,也適合作為軟體工程師、套用開發人員、科研人員的參考書。

圖書目錄

目  錄
譯者序
前言
作者簡介
第一部分 高性能分散式計算編程基礎
第1章 引言2
1.1 分散式系統2
1.2 分散式系統類型5
1.2.1 分散式嵌入式系統5
1.2.2 分散式信息系統7
1.2.3 分散式計算系統8
1.3 分散式計算架構9
1.4 分散式檔案系統10
1.4.1 分散式檔案系統需求10
1.4.2 分散式檔案系統架構11
1.5 分散式系統面臨的挑戰13
1.6 分散式系統的發展趨勢16
1.7 高性能分散式計算系統示例18
參考文獻20
第2章 Hadoop入門22
2.1 Hadoop簡介22
2.2 Hadoop生態系統24
2.3 Hadoop分散式檔案系統26
2.3.1 HDFS的特性26
2.3.2 名稱節點和數據節點27
2.3.3 檔案系統28
2.3.4 數據複製28
2.3.5 通信30
2.3.6 數據組織30
2.4 MapReduce準備工作31
2.5 安裝前的準備33
2.6 單節點集群的安裝35
2.7 多節點集群的安裝38
2.8 Hadoop編程45
2.9 Hadoop流48
參考文獻51
第3章 Spark入門53
3.1 Spark簡介53
3.2 Spark內部結構54
3.3 Spark安裝58
3.3.1 安裝前的準備58
3.3.2 開始使用60
3.3.3 示例:Scala套用63
3.3.4 Python下Spark的使用65
3.3.5 示例:Python套用67
3.4 Spark部署68
3.4.1 套用提交68
3.4.2 單機模式70
參考文獻72
第4章 Scalding和Spark的內部編程74
4.1 Scalding簡介74
4.1.1 安裝74
4.1.2 編程指南77
4.2 Spark編程指南103
參考文獻120
第二部分 使用Hadoop、Scalding和Spark的案例研究
第5章 案例研究Ⅰ:使用Scalding和Spark進行數據聚類122
5.1 簡介122
5.2 聚類122
5.2.1 聚類方法123
5.2.2 聚類處理125
5.2.3 K均值算法125
5.2.4 簡單的K均值示例126
5.3 實現128
問題142
參考文獻142
第6章 案例研究Ⅱ:使用Scalding和Spark進行數據分類144
6.1 分類145
6.2 機率論146
6.2.1 隨機變數146
6.2.2 分布146
6.2.3 均值和方差147
6.3 樸素貝葉斯148
6.3.1 機率模型148
6.3.2 參數估計和事件模型149
6.3.3 示例150
6.4 樸素貝葉斯分類器的實現152
6.4.1 Scalding實現153
6.4.2 結果166
問題168
參考文獻168
第7章 案例研究Ⅲ:使用Scalding和Spark進行回歸分析169
7.1 回歸分析的步驟169
7.2 實現細節172
7.2.1 線性回歸:代數方法173
7.2.2 代數方法的Scalding實現174
7.2.3 代數方法的Spark實現179
7.2.4 線性回歸:梯度下降法184
7.2.5 梯度下降法的Scalding實現187
7.2.6 梯度下降法的Spark實現195
問題198
參考文獻199
第8章 案例研究Ⅳ:使用Scalding和Spark實現推薦系統200
8.1 推薦系統200
8.1.1 目標201
8.1.2 推薦系統的數據源201
8.1.3 推薦系統中使用的技術202
8.2 實現細節204
8.2.1 Spark實現206
8.2.2 Scalding實現221
問題230
參考文獻230
索引233

作者簡介

K.G.斯里尼瓦沙(K.G.Srinivasa)於2007年獲得班加羅爾大學計算機科學與工程博士學位。現就職於班加羅爾的M.S.拉邁阿理工學院計算機科學與工程系,任教授兼主任。他在國際會議和期刊上共發表過一百多篇研究論文,曾作為訪問學者出訪過許多大學。他是UGC、DRDO和DST資助的多個項目的首席研究員,其研究領域包括數據挖掘、機器學習、高性能計算和雲計算。他是IEEE和ACM的高級成員。
阿尼爾·庫馬爾·穆帕拉(Anil Kumar Muppalla)既是一位研究者也是一個作家。具有計算機科學和工程學學位。他是很多行業的軟體開發者和顧問。他是活躍的研究者,並在國際會議和期刊上發表諸多文章。他研究的方向包括使用Hadoop、Scalding和Spark進行套用開發。

相關詞條

熱門詞條

聯絡我們