Hadoop大數據分析實戰

Hadoop大數據分析實戰

《Hadoop大數據分析實戰》是2019年5月1日清華大學出版社出版的圖書,作者是[美] 斯里達爾?奧拉。

基本介紹

  • 中文名:Hadoop大數據分析實戰
  • 作者:[美] 斯里達爾·奧拉
  • 譯者:李垚
  • 出版社: 清華大學出版社
  • 出版時間:2019年5月1日
  • 定價:129 元
  • ISBN:9787302527893
內容簡介,目錄,

內容簡介

本書詳細闡述了與Hadoop 3大數據分析相關的基本解決方案,主要包括Hadoop簡介、大數據分析概述、基於MapReduce的大數據處理、Python-Hadoop科學計算和大數據分析、R-Hadoop統計數據計算、Apache Spark批處理分析、Apache Spark實時數據分析、Apache Flink批處理分析、Apache Flink流式處 理、大數據可視化技術、雲計算簡介、使用亞馬遜Web服務等內容。此外,本書還提供了相應的示例、代碼,以幫助讀者進一步理解相關方案的實現過程。本書適合作為高等院校計算機及相關專業的教材和教學參考書,也可作為相關開發人員的自學教材和參考手冊。

目錄

第1章 Hadoop簡介 1
1.1.1 高可用性 2
1.1.2 內部DataNode均衡器 4
1.1.3 糾刪碼 4
1.1.4 連線埠號 4
1.2 MapReduce框架 5
1.3 YARN 6
1.3.1 機會型容器 7
1.3.2 YARN時間軸服務v.2 7
1.4 其他變化內容 9
1.4.1 最低Java版本 9
1.4.2 Shell腳本重寫 9
1.4.3 覆蓋客戶端的JAR 10
1.5 安裝Hadoop 3 10
1.5.1 準備條件 10
1.5.2 下載 10
1.5.3 安裝 12
1.5.4 設定無密碼ssh 12
1.5.5 設定NameNode 13
1.5.6 啟動HDFS 13
1.5.7 設定YARN服務 17
1.5.8 糾刪碼 18
1.5.9 內部DataNode平衡器 21
1.5.10 安裝時間軸服務v.2 21
1.6 本章小結 27
第2章 大數據分析概述 29
2.1 數據分析簡介 29
2.2 大數據簡介 30
2.2.1 數據的多樣性 31
2.2.2 數據的速度 32
2.2.3 數據的容量 32
2.2.4 數據的準確性 32
2.2.5 數據的可變性 33
2.2.6 可視化 33
2.2.7 數值 33
2.2 使用Apache Hadoop的分散式計算 33
2.4 MapReduce框架 34
2.5Hive35
2.5.1下載並解壓Hive二進制檔案37
2.5.2安裝Derby37
2.5.3使用Hive39
2.5.4SELECT語句的語法41
2.5.5INSET語句的語法44
2.4.6原始類型44
2.5.7複雜類型45
2.5.8內建運算符和函式45
2.5.9語言的功能50
2.6ApacheSpark51
2.7基於Tableau的可視化操作52
2.8本章小結54
第3章基於MapReduce的大數據處理55
3.1MapReduce框架55
3.1.1數據集57
3.1.2記錄讀取器58
3.1.3映射59
3.1.4組合器59
3.1.5分區器60
3.1.6混洗和排序60
3.1.7reducer任務60
3.1.8輸出格式61
3.2MapReduce作業類型61
3.2.1SingleMapper作業63
3.2.2SingleMapperReducer作業72
3.2.3MultipleMappersReducer作業77
3.2.4SingleMapperReducer作業83
3.2.5套用場景84
3.3MapReduce模式88
3.3.1聚合模式88
3.3.2過濾模式90
3.3.3連線模式91
3.4本章小結100
第4章Python-Hadoop科學計算和大數據分析101
4.1安裝操作101
4.1.1安裝Python101
4.1.2安裝Anaconda103
4.2數據分析110
4.3本章小結134
第5章R-Hadoop統計數據計算135
5.1概述135
5.1.1在工作站上安裝R並連線Hadoop中的數據135
5.1.2在共享伺服器上安裝R並連線至Hadoop136
5.1.3利用RevolutionROpen136
5.1.4利用RMR2在MapReduce內執行R137
5.2R語言和Hadoop間的集成方法138
5.2.1RHadoop—在工作站上安裝R並將數據連線至Hadoop中139
5.2.2RHIPE—在HadoopMapReduce中執行R語言139
5.2.3R和Hadoop流139
5.2.4RHIVE—在工作站上安裝R並連線至Hadoop數據140
5.2.5ORCH—基於Hadoop的Oracle連線器140
5.3數據分析140
5.4本章小結165
第6章ApacheSpark批處理分析167
6.1SparkSQL和DataFrame167
6.2DataFrameAPI和SQLAPI171
6.2.1旋轉176
6.2.2過濾器177
6.2.3用戶定義的函式178
6.3模式—數據的結構178
6.3.1隱式模式179
6.3.2顯式模式179
6.3.3編碼器181
6.4載入數據集182
6.5保存數據集183
6.6聚合183
6.6.1聚合函式184
6.6.2視窗函式194
6.6.3ntiles195
6.7連線197
6.7.1連線的內部工作機制199
6.7.2混洗連線199
6.7.3廣播連線199
6.7.4連線類型200
6.7.5內部連線201
6.7.6左外連線202
6.7.7右外連線203
6.7.8全外連線204
6.7.9左反連線205
6.7.10左半連線206
6.7.11交叉連線206
6.7.12連線的操作性能207
6.8本章小結208
第7章ApacheSpark實時數據分析209
7.1數據流209
7.1.1“至少一次”處理211
7.1.2“最多一次”處理211
7.1.3“僅一次”處理212
7.2SparkStreaming214
7.2.1StreamingContext215
7.2.2創建StreamingContext215
7.2.3啟用StreamingContext216
7.2.4終止StreamingContext216
7.3fileStream217
7.3.1textFileStream217
7.3.2binaryRecordsStream217
7.3.3queueStream218
7.3.4離散流219
7.4轉換222
7.4.1視窗操作223
7.4.2有狀態/無狀態轉換226
7.5檢查點227
7.5.1元數據檢查點228
7.5.2數據檢查點228
7.6驅動程式故障恢復229
7.7與流平台的互操作性(ApacheKafka)230
7.7.1基於接收器的方案230
7.7.2DirectStream232
7.7.3StructuredStreaming233
7.8處理事件時間和延遲日期236
7.9容錯示意圖237
7.10本章小結237
第8章ApacheFlink批處理分析239
8.1ApacheFlink簡介239
8.1.1無界數據集的連續處理240
8.1.2Flink、數據流模型和有界數據集241
8.2安裝Flink241
8.3使用Flink集群UI248
8.4批處理分析251
8.4.1讀取檔案251
8.4.2轉換254
8.4.3groupBy258
8.4.4聚合260
8.4.5連線261
8.4.6寫入檔案272
8.5本章小結274
第9章ApacheFlink流式處理275
9.1流式執行模型簡介275
9.2利用DataStreamAPI進行數據處理277
9.2.1執行環境278
9.2.2數據源278
9.2.3轉換282
9.3本章小結300
第10章大數據可視化技術301
10.1數據可視化簡介301
10.2Tableau302
10.3圖表類型313
10.3.1線狀圖314
10.3.2餅圖314
10.3.3柱狀圖315
10.3.4熱圖316
10.4基於Python的數據可視化317
10.5基於R的數據可視化319
10.6大數據可視化工具320
10.7本章小結321
第11章雲計算簡介323
11.1概念和術語323
11.1.1雲323
11.1.2IT資源324
11.1.3本地環境324
11.1.4雲使用者和雲供應商324
11.1.5擴展324
11.2目標和收益325
11.2.1可擴展性的提升326
11.2.2可用性和可靠性的提升326
11.3風險和挑戰327
11.3.1安全漏洞327
11.3.2減少運營治理控制328
11.3.3雲提供商之間有限的可移植性328
11.4角色和邊界328
11.4.1雲供應商328
11.4.2雲使用者328
11.4.3雲服務持有者328
11.4.4雲資源管理員329
11.5雲特徵329
11.5.1按需使用330
11.5.2無處不在的訪問330
11.5.3多租戶機制(和資源池機制)330
11.5.4彈性330
11.5.5監測套用狀態330
11.5.6彈性計算331
11.6雲交付模型331
11.6.1基礎設施即服務331
11.6.2平台即服務331
11.6.3軟體即服務332
11.6.4整合雲交付模型332
11.7雲部署模型333
11.7.1公共雲333
11.7.2社區雲334
11.7.3私有雲334
11.7.4混合雲334
11.8本章小結335
第12章使用亞馬遜Web服務337
12.1AmazonElasticComputeCloud337
12.1.1彈性Web計算337
12.1.2對操作的完整控制338
12.1.3靈活的雲託管服務338
12.1.4集成338
12.1.5高可靠性338
12.1.6安全性338
12.1.7經濟性338
12.1.8易於啟動339
12.1.9亞馬雲及其鏡像339
12.2啟用多個AMI實例340
12.2.1實例340
12.2.2AMI340
12.2.3區域和可用區340
12.2.4區域和可用區概念341
12.2.5區域341
12.2.6可用區341
12.2.7可用區域342
12.2.8區域和端點342
12.2.9實例類型343
12.2.10AmazonEC2和亞馬遜虛擬私有雲343
12.3AWSLambda344
12.4AmazonS3簡介345
12.4.1AmazonS3功能345
12.4.2全面的安全和協從能力346
12.4.3就地查詢346
12.4.4靈活的管理機制346
12.4.5最受支持的平台以及最大的生態系統347
12.4.6簡單、方便的數據傳輸機制347
12.4.7備份和恢復347
12.4.8數據存檔347
12.4.9數據湖和數據分析348
12.4.10混合雲存儲348
12.4.11原生雲應用程式數據348
12.4.12災難恢復348
12.5AmazonDynamoDB349
12.6AmazonKinesisDataStreams349
12.6.1加速日誌和數據提要的輸入和處理350
12.6.2實時度量和報告機制350
12.6.3實時數據分析350
12.6.4複雜的數據流處理350
12.6.5KinesisDataStreams的優點350
12.7AWSGlue351
12.8AmazonEMR352
12.9本章小結363

相關詞條

熱門詞條

聯絡我們