《大數據技術實訓教程:預處理、離線分析和實時計算》是2022年人民郵電出版社出版的圖書。
基本介紹
- 中文名:大數據技術實訓教程:預處理、離線分析和實時計算
- 出版時間:2022年9月1日
- 出版社:人民郵電出版社
- ISBN:9787115596574
內容簡介,圖書目錄,
內容簡介
《大數據技術實訓教程:預處理、離線分析和實時計算》是職業院校大數據相關專業的實訓配套教材,也是“1+X”大數據套用開發(Java)職業技能等級證書考試輔助教材。全書共4章,包括Web伺服器日誌分析項目、招聘網站數據分析項目、電商網站實時數據分析項目、金融大數據分析項目。本書內容涵蓋了大數據技術的完整流程,包括數據採集、數據預處理、數據分析、數據挖掘、數據存儲、數據可視化等,既有離線處理,又有實時處理。同時涉及4個不同業務背景的29個項目任務,包括17個職業院校技能大賽項目任務,可幫助讀者切實掌握大數據預處理、離線分析和實時計算的實踐技能。
《大數據技術實訓教程:預處理、離線分析和實時計算》可作為職業院校、套用型本科院校計算機套用技術、軟體技術、軟體工程、網路工程和大數據技術等計算機相關專業的教材,還可供從事計算機相關工作的技術人員學習參考。
圖書目錄
第 1章 Web伺服器日誌分析項目001
1.1 任務一:需求分析002
1.2 任務二:技術方案設計004
1.3 任務三:使用Flume採集日誌數據006
1.4 任務四:使用MapReduce清洗數據008
1.5 任務五:使用Hive分析數據012
1.6 任務六:使用Sqoop遷移數據016
1.7 任務七:Java+ECharts數據可視化018
1.8 答疑解惑039
1.9 拓展練習041
第 2章 招聘網站數據分析項目043
2.1 大賽簡介044
2.2 任務一:需求分析048
2.3 任務二:項目流程050
2.4 任務三:使用Python“爬取”招聘網站數據051
2.5 任務四:使用MapReduce預處理數據056
2.6 任務五:使用Hive分析數據062
2.7 任務六:使用Sqoop導出數據065
2.8 任務七:Flask+ECharts數據可視化067
2.9 任務八:編寫分析報告079
2.10 答疑解惑080
2.11 拓展練習084
第3章 電商網站實時數據分析項目086
3.1 任務一:需求分析087
3.2 任務二:項目方案設計088
3.3 任務三:使用Flume+Kafka實時收集數據089
3.4 任務四:使用Spark實時計算數據091
3.5 任務五:Java+ECharts數據可視化101
3.6 答疑解惑113
3.7 拓展練習114
第4章 金融大數據分析項目116
4.1 大賽簡介117
4.2 任務一:需求分析119
4.3 任務二:項目流程121
4.4 任務三:使用Spark抽取離線數據123
4.5 任務四:使用Spark統計離線數據125
4.6 任務五:使用Flume+Kafka實時採集數據128
4.7 任務六:使用Flink實時計算數據130
4.8 任務七:Vue.js+Java+ECharts數據可視化136
4.9 任務八:使用Spark ML數據挖掘156
4.10 任務九:編寫分析報告160
4.11 答疑解惑162
4.12 拓展練習163
附錄165
附錄1 Hadoop安裝部署和配置165
附錄2 掌握HDFS Shell操作175
附錄3 通過WordCount熟悉MapReduce182
附錄4 深入理解MapReduce186
附錄5 Flume安裝部署和配置199
附錄6 Hive安裝部署和配置200
附錄7 Sqoop安裝部署和配置201
附錄8 Hadoop高可用集群環境安裝部署和配置203
附錄9 Hadoop集群節點動態管理212
附錄10 Kafka安裝部署和配置214
附錄11 Spark安裝部署和配置217
附錄12 Spark RDD運算元220
附錄13 通過WordCount熟悉Spark RDD230
附錄14 Flink安裝部署和配置231