Python大數據處理庫PySpark實戰

《Python大數據處理庫PySpark實戰》是清華大學出版社出版圖書。

基本介紹

  • 中文名:Python大數據處理庫PySpark實戰
  • 作者:汪明
  • ISBN:9787302575085
  • 定價:79 元
  • 出版日期:2021年3月1日
  • 出版社:清華大學出版社
內容簡介,作者簡介,目 錄,

內容簡介

我國提出新基建概念,要加快大數據中心、人工智慧等新型基礎設施的建設進度,這無疑需要更多的大數據人才。PySpark可以對大數據進行分散式處理,降低大數據學習門檻,本書正是一本PySpark入門教材,適合有一定Python基礎的讀者學習使用。
本書分為7章,第1章介紹大數據的基本概念、常用的大數據分析工具;第2章介紹Spark作為大數據處理的特點和算法;第3章介紹Spark實戰環境的搭建,涉及Windows和Linux作業系統;第4章介紹如何靈活套用PySpark對數據進行操作;第5章介紹PySpark ETL處理,涉及PySpark讀取數據、對數據進行統計分析等數據處理相關內容;第6章介紹PySpark如何利用MLlib庫進行分散式機器學習(Titanic倖存者預測);第7章介紹一個PySpark和Kafka結合的實時項目。
本書內容全面、示例豐富,可作為廣大PySpark入門讀者必備的參考書,同時能作為大中專院校師生的教學參考書,也可作為高等院校計算機及相關專業的大數據技術教材使用。

作者簡介

汪明,碩士,畢業於中國礦業大學,徐州軟體協會副理事長,某創業公司合伙人。從事軟體行業十餘年,發表論文數十篇。著有圖書《TypeScript實戰》《Go並發編程實戰》。

目 錄

第1章 大數據時代 1
1.1 什麼是大數據 1
1.1.1 大數據的特點 2
1.1.2 大數據的發展趨勢 3
1.2 大數據下的分析工具 4
1.2.1 Hadoop 5
1.2.2 Hive 6
1.2.3 HBase 6
1.2.4 Apache Phoenix 7
1.2.5 Apache Drill 7
1.2.6 Apache Hudi 7
1.2.7 Apache Kylin 8
1.2.8 Apache Presto 8
1.2.9 ClickHouse 8
1.2.10 Apache Spark 9
1.2.11 Apache Flink 10
1.2.12 Apache Storm 10
1.2.13 Apache Druid 10
1.2.14 Apache Kafka 11
1.2.15 TensorFlow 11
1.2.16 PyTorch 12
1.2.17 Apache Superset 12
1.2.18 Elasticsearch 12
1.2.19 Jupyter Notebook 13
1.2.20 Apache Zeppelin 13
1.3 小結 14
第2章 大數據的瑞士軍刀——Spark 15
2.1 Hadoop與生態系統 15
2.1.1 Hadoop概述 15
2.1.2 HDFS體系結構 19
2.1.3 Hadoop生態系統 20
2.2 Spark與Hadoop 23
2.2.1 Apache Spark概述 23
2.2.2 Spark和Hadoop比較 24
2.3 Spark核心概念 25
2.3.1 Spark軟體棧 25
2.3.2 Spark運行架構 26
2.3.3 Spark部署模式 27
2.4 Spark基本操作 29
2.5 SQL in Spark 33
2.6 Spark與機器學習 33
2.6.1 決策樹算法 35
2.6.2 貝葉斯算法 36
2.6.3 支持向量機算法 36
2.6.4 隨機森林算法 37
2.6.5 人工神經網路算法 38
2.6.6 關聯規則算法 39
2.6.7 線性回歸算法 40
2.6.8 KNN算法 40
2.6.9 K-Means算法 41
2.7 小結 42
第3章 Spark實戰環境設定 43
3.1 建立Spark環境前提 43
3.1.1 CentOS 7安裝 45
3.1.2 FinalShell安裝 55
3.1.3 PuTTY安裝 58
3.1.4 JDK安裝 60
3.1.5 Python安裝 63
3.1.6 Visual Studio Code安裝 64
3.1.7 PyCharm安裝 65
3.2 一分鐘建立Spark環境 66
3.2.1 Linux搭建Spark環境 66
3.2.2 Windows搭建Spark環境 69
3.3 建立Hadoop集群 79
3.3.1 CentOS配置 79
3.3.2 Hadoop偽分布模式安裝 81
3.3.3 Hadoop完全分布模式安裝 87
3.4 安裝與配置Spark集群 93
3.5 安裝與配置Hive 99
3.5.1 Hive安裝 99
3.5.2 Hive與Spark集成 108
3.6 打造互動式Spark環境 110
3.6.1 Spark Shell 111
3.6.2 PySpark 112
3.6.3 Jupyter Notebook安裝 112
3.7 小結 118
第4章 活用PySpark 119
4.1 Python 語法複習 119
4.1.1 Python基礎語法 120
4.1.2 Python變數類型 124
4.1.3 Python運算符 135
4.1.4 Python控制語句 139
4.1.5 Python函式 143
4.1.6 Python模組和包 149
4.1.7 Python面向對象 154
4.1.8 Python異常處理 157
4.1.9 Python JSON處理 159
4.1.10 Python日期處理 160
4.2 用PySpark建立第一個Spark RDD 161
4.2.1 PySpark Shell 建立RDD 163
4.2.2 VSCode編程建立RDD 165
4.2.3 Jupyter 編程建立RDD 167
4.3 RDD的操作與觀察 168
4.3.1 first操作 169
4.3.2 max操作 169
4.3.3 sum操作 170
4.3.4 take操作 171
4.3.5 top操作 172
4.3.6 count操作 172
4.3.7 collect操作 173
4.3.8 collectAsMap操作 174
4.3.9 countByKey操作 175
4.3.10 countByValue操作 175
4.3.11 glom操作 176
4.3.12 coalesce操作 177
4.3.13 combineByKey操作 178
4.3.14 distinct操作 179
4.3.15 filter操作 180
4.3.16 flatMap操作 181
4.3.17 flatMapValues操作 181
4.3.18 fold操作 182
4.3.19 foldByKey操作 183
4.3.20 foreach操作 184
4.3.21 foreachPartition操作 185
4.3.22 map操作 186
4.3.23 mapPartitions操作 187
4.3.24 mapPartitionsWithIndex操作 187
4.3.25 mapValues操作 188
4.3.26 groupBy操作 189
4.3.27 groupByKey操作 190
4.3.28 keyBy操作 191
4.3.29 keys操作 192
4.3.30 zip操作 193
4.3.31 zipWithIndex操作 194
4.3.32 values操作 194
4.3.33 union操作 195
4.3.34 takeOrdered操作 196
4.3.35 takeSample操作 197
4.3.36 subtract操作 198
4.3.37 subtractByKey操作 198
4.3.38 stats操作 199
4.3.39 sortBy操作 200
4.3.40 sortByKey操作 201
4.3.41 sample操作 202
4.3.42 repartition操作 203
4.3.43 reduce操作 204
4.3.44 reduceByKey操作 205
4.3.45 randomSplit操作 206
4.3.46 lookup操作 207
4.3.47 join操作 208
4.3.48 intersection操作 209
4.3.49 fullOuterJoin操作 210
4.3.50 leftOuterJoin與rightOuterJoin操作 211
4.3.51 aggregate操作 212
4.3.52 aggregateByKey操作 215
4.3.53 cartesian操作 217
4.3.54 cache操作 218
4.3.55 saveAsTextFile操作 218
4.4 共享變數 220
4.4.1 廣播變數 220
4.4.2 累加器 221
4.5 DataFrames與Spark SQL 223
4.5.1 DataFrame建立 223
4.5.2 Spark SQL基本用法 228
4.5.3 DataFrame基本操作 231
4.6 撰寫第一個Spark程式 245
4.7 提交你的 Spark 程式 246
4.8 小結 248
第5章 PySpark ETL 實戰 249
5.1 認識資料單元格式 249
5.2 觀察資料 255
5.3 選擇、篩選與聚合 267
5.4 存儲數據 269
5.5 Spark存儲數據到SQL Server 272
5.6 小結 275
第6章 PySpark分散式機器學習 276
6.1 認識數據格式 277
6.2 描述統計 280
6.3 資料清理與變形 284
6.4 認識Pipeline 288
6.5 邏輯回歸原理與套用 290
6.5.1 邏輯回歸基本原理 290
6.5.2 邏輯回歸套用示例:Titanic倖存者預測 291
6.6 決策樹原理與套用 295
6.6.1 決策樹基本原理 295
6.6.2 決策樹套用示例:Titanic倖存者預測 296
6.7 小結 299
第7章 實戰:PySpark+Kafka實時項目 301
7.1 Kafka和Flask環境搭建 301
7.2 代碼實現 303
7.3 小結 310

相關詞條

熱門詞條

聯絡我們