Hadoop與Spark入門

《Hadoop與Spark入門》是2022年清華大學出版社出版的圖書,作者是覃雄派、陳躍國。

基本介紹

  • 中文名:Hadoop與Spark入門
  • 作者:覃雄派、陳躍國
  • 出版社:清華大學出版社
  • 出版時間:2022年11月1日
  • 定價:59 元
  • ISBN:9787302613633
內容簡介,圖書目錄,

內容簡介

本書為一本大數據技術的入門書籍,介紹Hadoop大數據平台和Spark大數據平台及相關工具的原理,以及如何進行部署和簡單開發。
全書包含13章: 第1、2章介紹如何為深入學習Hadoop和Spark做環境準備,包括VMware虛擬機的創建和CentOS作業系統安裝。第3~6章介紹Hadoop大數據平台的基本原理,包括HDFS、MapReduce計算模型、HBase資料庫,以及Hive數據倉庫的原理、部署方法和開發技術。第7~11章介紹Spark大數據平台的基本原理,包括彈性分散式數據集、轉換與動作操作、寬依賴與窄依賴、有向無環圖表達的作業及其處理過程等,並且介紹了Spark Core、Spark SQL、Spark MLlib、Spark GraphX的部署和開發技術。最後兩章介紹了Flume(第12章)和Kafka(第13章)兩個工具,Flume用於大量日誌的收集和處理,Kafka用於對大量快速到達的數據進行及時、可靠、暫時的存儲。
本書適合高等院校高年級本科生以及碩士研究生使用,也可以供非計算機專業學生及相關領域技術人員參考。

圖書目錄

第1章VMware與虛擬機1
1.1VMware簡介1
1.2VMware的安裝2
1.3VMware的網路配置2
1.3.1VMnet0網卡配置2
1.3.2VMnet1網卡配置3
1.3.3VMnet8網卡配置3
1.4Windows環境下對VMnet8的DNS進行配置6
1.5利用管理員許可權編輯網卡7
1.6總結7
1.7思考題8
參考文獻8
第2章CentOS作業系統安裝9
2.1新建VMware虛擬機9
2.2安裝CentOS14
2.3配置Yum18
2.4為CentOS安裝圖形用戶界面20
2.5CentOS的網路配置20
2.5.1虛擬機的網路配置20
2.5.2在CentOS作業系統里對網卡進行設定21
2.6Samba配置23
2.7配置SSHD26
2.8重新啟動虛擬機需要執行的命令27
2.9思考題28
第3章Hadoop入門29
3.1Hadoop簡介29
3.2HDFS30
3.2.1寫檔案31
3.2.2讀檔案32
3.2.3Secondary NameNode介紹33
3.3MapReduce工作原理34
3.3.1MapReduce執行引擎35
3.3.2MapReduce計算模型37
3.3.3Hadoop 1.0的套用38
3.4Hadoop生態系統38
3.5Hadoop 2.040
3.5.1Hadoop 1.0的優勢和局限40
3.5.2從Hadoop 1.0到Hadoop 2.041
3.5.3YARN原理41
3.5.4YARN的優勢43
3.6思考題44
〖3〗Hadoop與Spark入門目錄〖3〗第4章Hadoop安裝與HDFS、MapReduce實驗45
4.1安裝JDK45
4.2新建虛擬機集群47
4.2.1網路配置小結47
4.2.2配置各個虛擬機別名48
4.2.3配置各個虛擬機的/etc/hosts檔案48
4.3無密碼SSH登錄49
4.4Hadoop安裝、配置和啟動52
4.4.1coresite.xml配置檔案54
4.4.2hdfssite.xml配置檔案54
4.4.3mapredsite.xml配置檔案55
4.4.4yarnsite.xml配置檔案56
4.4.5配置hadoopenv.sh腳本檔案59
4.4.6配置yarnenv.sh腳本檔案59
4.4.7主機配置59
4.5格式化HDFS60
4.6啟動Hadoop60
4.7報告HDFS的基本信息62
4.8使用日誌62
4.9Hadoop管理界面63
4.10Hadoop測試63
4.10.1HDFS常用檔案操作命令63
4.10.2測試WordCount程式64
4.11配置History Server64
4.12若干問題解決65
4.13HDFS Java程式分析69
4.14WordCount程式代碼簡單分析73
4.15MapReduce Sort76
4.16MapReduce Java開發環境配置76
4.17思考題79
參考文獻80
第5章HBase簡介、部署與開發81
5.1HBase簡介81
5.2HBase訪問接口81
5.3HBase的數據模型82
5.4HBase系統架構83
5.5HBase存儲格式85
5.6在HBase系統上運行MapReduce87
5.7HBase安裝、配置與運行87
5.8啟動HBase並且測試90
5.9使用HBase Shell92
5.10HBase Java實例分析93
5.11若干問題解決97
5.12思考題99
參考文獻99
第6章Hive數據倉庫100
6.1Hive簡介100
6.2Hive數據模型102
6.3Hive安裝、配置和運行103
6.3.1使用MySQL進行元信息管理104
6.3.2安裝和配置Hive105
6.3.3啟動Hive108
6.4若干問題解決110
6.5hiveserver2與beeline112
6.6Hive安裝問題115
6.7HWI服務115
6.8Metastore服務116
6.9Hive的Java開發116
6.10Tez簡介119
6.10.1Hadoop 2.0上的互動式查詢引擎Hive on Tez119
6.10.2把數據處理邏輯建模成一個DAG連線起來的任務121
6.11Hadoop平台上的列存儲技術121
6.11.1列存儲的優勢121
6.11.2Parquet列存儲格式121
6.12思考題126
參考文獻126
第7章Spark及其生態系統127
7.1Spark簡介127
7.1.1Spark軟體架構127
7.1.2Spark的主要優勢128
7.2Hadoop的局限和Spark的誕生129
7.3Spark的特性130
7.4Spark生態系統131
7.5RDD及其處理132
7.5.1DAG、寬依賴與窄依賴133
7.5.2DAG的調度執行134
7.6Spark的部署135
7.7Spark SQL136
7.8Spark的套用案例137
7.9總結138
7.10思考題138
參考文獻138
第8章Spark的安裝、部署與運行139
8.1Spark的安裝、配置與運行139
8.2啟動Spark142
8.2.1啟動sparksql shell運行SQL144
8.2.2啟動pyspark shell運行SQL144
8.2.3用pyspark shell進行數據處理145
8.2.4啟動scala shell運行WordCount145
8.2.5啟動scala shell運行SQL(本地檔案)146
8.2.6啟動scala shell運行SQL(HDFS檔案)147
8.2.7配置和啟動Thrift Server147
8.2.8錯誤分析150
8.3在Windows上用Eclipse調試Spark Java程式151
8.4在Windows上安裝Maven和配置Eclipse157
8.5思考題160
參考文獻160
第9章Spark SQL162
9.1Spark SQL簡介162
9.2查詢本地檔案、HDFS檔案以及HDFS Parquet列存儲格式檔案163
9.3內置實例分析與Java開發166
9.3.1通過SQL Explorer外掛程式存取Spark SQL166
9.3.2JDBC Java編程167
9.4思考題170
參考文獻170
第10章Spark MLlib171
10.1MLlib簡介171
10.2啟動平台軟體172
10.3分類實例173
10.4聚類實例178
10.5線性回歸180
10.6協同過濾推薦181
10.7思考題184
參考文獻185
第11章Spark GraphX186
11.1GraphX簡介186
11.2PageRank188
11.3思考題190
參考文獻190
第12章Flume入門191
12.1Flume簡介191
12.2Flume的特性192
12.3Flume的系統架構和運行機制192
12.4Flume的安裝、配置和運行195
12.5使用netcat完成數據注入的實例197
12.6以HBase為目標資料庫的實例198
12.7以Hive為目標資料庫的實例200
12.8Java開發204
12.9如何安裝netcat204
12.10思考題204
參考文獻204
第13章Kafka入門206
13.1Kafka簡介206
13.1.1話題和分區207
13.1.2數據分布與存儲208
13.1.3代理209
13.1.4生產者209
13.1.5消費者209
13.1.6訊息的順序210
13.1.7Kafka的套用場景211
13.1.8小結213
13.2Zookeeper與Kafka213
13.3Kafka的流數據處理組件Kafka Streams214
13.4Kafka在系統中的位置214
13.5Kafka的安裝、配置和運行215
13.5.1單Broker部署215
13.5.2多Broker部署217
13.5.3測試容錯性219
13.6安裝問題220
13.7Kafka的Java編程220
13.8Kafka的綜合實例227
13.9Kafka與Flume的配合228
13.10流處理與批處理的結合231
13.11思考題232
參考文獻232

相關詞條

熱門詞條

聯絡我們