《Spark大數據分析技術(Python版·微課版)》是2023年清華大學出版社出版的圖書,作者是曹潔。
基本介紹
- 中文名:Spark大數據分析技術(Python版·微課版)
- 作者:曹潔
- 出版時間:2023年3月1日
- 出版社:清華大學出版社
- ISBN:9787302625520
- 定價:59 元
內容簡介,圖書目錄,
內容簡介
本書系統介紹Spark大數據處理框架。全書共8章,內容包括大數據技術概述、Spark大數據處理框架、Spark RDD編程、Spark SQL結構化數據處理、HBase分散式資料庫、Spark Streaming流計算、Spark MLlib機器學習、數據可視化。 本書可作為高等院校計算機科學與技術、信息管理與信息系統、軟體工程、數據科學與大數據技術、人工智慧等專業的大數據課程教材,也可供從事大數據開發和研究工作的工程師和科技工作者參考。
圖書目錄
第1章大數據技術概述1
1.1大數據的基本概念1
1.1.1大數據的定義1
1.1.2大數據的特徵1
1.1.3大數據思維2
1.2代表性大數據技術3
1.2.1Hadoop3
1.2.2Spark5
1.2.3Flink5
1.3大數據程式語言5
1.4線上資源5
1.5拓展閱讀——三次信息化浪潮的啟示6
1.6習題6
第2章Spark大數據處理框架7
2.1Spark概述7
2.1.1Spark的產生背景7
2.1.2Spark的優點8
2.1.3Spark的套用場景9
2.1.4Spark的生態系統9
2.2Spark運行機制10
2.2.1Spark基本概念10
2.2.2Spark運行架構12
2.3在VirtualBox上安裝Linux集群13
2.3.1Master節點的安裝13
2.3.2虛擬機克隆安裝Slave1節點22
2.4Hadoop安裝前的準備工作26
2.4.1創建hadoop用戶和更新APT262.4.2安裝SSH、配置SSH無密碼登錄27
2.4.3安裝Java環境28
2.4.4Linux系統下Scala版本的Eclipse的安裝與配置29
2.4.5Eclipse環境下Java程式開發實例30
2.5Hadoop的安裝與配置32
2.5.1下載Hadoop安裝檔案32
2.5.2Hadoop單機模式配置33
2.5.3Hadoop偽分散式模式配置35
2.5.4Hadoop分散式模式配置40
2.6Spark的安裝與配置49
2.6.1下載Spark安裝檔案49
2.6.2單機模式配置50
2.6.3偽分散式模式配置51
2.7使用PySpark編寫Python代碼54
2.8安裝pip工具和常用的數據分析庫55
2.9安裝Anaconda和配置Jupyter Notebook55
2.9.1安裝Anaconda55
2.9.2配置Jupyter Notebook57
2.9.3運行Jupyter Notebook58
2.9.4配置Jupyter Notebook實現和PySpark互動59
2.9.5為Anaconda安裝擴展庫61
2.10拓展閱讀——Spark誕生的啟示62
2.11習題62
〖3〗Spark大數據分析技術(Python版·微課版)目錄〖3〗第3章Spark RDD編程63
3.1RDD的創建方式63
3.1.1使用程式中的數據集創建RDD63
3.1.2使用文本檔案創建RDD65
3.1.3使用JSON檔案創建RDD67
3.1.4使用CSV檔案創建RDD69
3.2RDD轉換操作69
3.2.1映射操作70
3.2.2去重操作72
3.2.3排序操作73
3.2.4分組聚合操作75
3.2.5集合操作78
3.2.6抽樣操作79
3.2.7連線操作80
3.2.8打包操作81
3.2.9獲取鍵值對RDD的鍵和值集合81
3.2.10重新分區操作81
3.3RDD行動操作83
3.3.1統計操作84
3.3.2取數據操作85
3.3.3聚合操作86
3.3.4疊代操作87
3.3.5存儲操作88
3.4RDD之間的依賴關係89
3.4.1窄依賴89
3.4.2寬依賴89
3.5RDD的持久化90
3.6案例實戰: 利用Spark RDD實現詞頻統計91
3.7實驗1: RDD編程實驗92
3.8拓展閱讀——中國女排精神94
3.9習題95
第4章Spark SQL結構化數據處理96
4.1Spark SQL96
4.1.1Spark SQL簡介96
4.1.2DataFrame與Dataset96
4.2創建DataFrame對象的方法97
4.2.1使用Parquet檔案創建DataFrame對象97
4.2.2使用JSON檔案創建DataFrame對象98
4.2.3使用SparkSession方式創建DataFrame對象99
4.3將DataFrame對象保存為不同格式的檔案104
4.3.1通過write.xxx方法保存DataFrame對象104
4.3.2通過write.format方法保存DataFrame對象105
4.3.3將DataFrame對象轉化成RDD保存到檔案中105
4.4DataFrame的常用操作105
4.4.1行類操作105
4.4.2列類操作106
4.4.3DataFrame的常用屬性109
4.4.4輸出110
4.4.5篩選112
4.4.6排序116
4.4.7匯總與聚合117
4.4.8統計119
4.4.9合併120
4.4.10連線120
4.4.11to系列轉換123
4.5讀寫MySQL資料庫124
4.5.1安裝並配置MySQL124
4.5.2讀取MySQL資料庫中的數據126
4.5.3向MySQL資料庫寫入數據127
4.6實驗2: Spark SQL編程實驗128
4.7拓展閱讀——中國晶片之路130
4.8習題131
第5章HBase分散式資料庫132
5.1HBase概述132
5.1.1HBase的技術特點132
5.1.2HBase與傳統關係資料庫的區別132
5.1.3HBase與Hadoop中其他組件的關係133
5.2HBase系統架構和數據訪問流程134
5.2.1HBase系統架構134
5.2.2HBase數據訪問流程136
5.3HBase數據表139
5.3.1HBase數據表邏輯視圖139
5.3.2HBase數據表物理視圖141
5.3.3HBase數據表面向列的存儲142
5.3.4HBase數據表的查詢方式143
5.3.5HBase表結構設計143
5.4HBase的安裝144
5.4.1下載安裝檔案144
5.4.2配置環境變數144
5.4.3添加用戶許可權145
5.4.4查看HBase版本信息145
5.5HBase的配置145
5.5.1單機模式配置146
5.5.2偽分散式模式配置147
5.6HBase的Shell操作150
5.6.1基本操作150
5.6.2創建表151
5.6.3插入與更新表中的數據153
5.6.4查看錶中的數據154
5.6.5刪除表中的數據156
5.6.6表的啟用/禁用156
5.6.7修改表結構157
5.6.8刪除HBase表158
5.7HBase的Java API操作158
5.7.1HBase資料庫管理API158
5.7.2HBase資料庫表API159
5.7.3HBase資料庫表行列API161
5.8HBase案例實戰163
5.8.1在Eclipse中創建工程163
5.8.2添加項目用到的JAR包164
5.8.3編寫Java應用程式165
5.8.4編譯運行程式168
5.9利用Python操作HBase169
5.9.1HappyBase的安裝169
5.9.2Connection類169
5.9.3Table類170
5.10拓展閱讀——HBase存儲策略的啟示171
5.11習題171
第6章Spark Streaming流計算172
6.1流計算概述172
6.1.1流數據172
6.1.2流計算處理流程172
6.2Spark Streaming工作原理173
6.3Spark Streaming編程模型174
6.3.1編寫Spark Streaming程式的步驟174
6.3.2創建StreamingContext對象174
6.4創建DStream175
6.4.1創建輸入源為檔案流的DStream對象175
6.4.2定義DStream的輸入數據源為套接字流178
6.4.3定義DStream的輸入數據源為RDD佇列流182
6.5DStream操作183
6.5.1DStream無狀態轉換操作183
6.5.2DStream有狀態轉換操作187
6.5.3DStream輸出操作189
6.6拓展閱讀——Spark Streaming流處理過程的啟示190
6.7習題190
第7章Spark MLlib機器學習191
7.1MLlib概述191
7.1.1機器學習191
7.1.2PySpark機器學習庫193
7.2MLlib基本數據類型193
7.2.1本地向量193
7.2.2帶標籤的點195
7.2.3本地矩陣196
7.3機器學習流水線198
7.3.1轉換器198
7.3.2評估器198
7.3.3流水線199
7.4基本統計201
7.4.1匯總統計201
7.4.2相關分析203
7.4.3分層抽樣205
7.4.4生成隨機數206
7.4.5核密度估計206
7.5特徵提取、轉換和選擇207
7.5.1特徵提取207
7.5.2特徵轉換210
7.5.3特徵選擇215
7.6分類算法217
7.6.1邏輯二分類回歸分析218
7.6.2決策樹分類222
7.7回歸算法225
7.7.1循環發電場數據的多元線性回歸分析225
7.7.2回歸決策樹229
7.7.3梯度提升回歸樹230
7.8聚類算法231
7.8.1聚類概述231
7.8.2k均值聚類算法232
7.9協同過濾推薦算法235
7.9.1協同過濾推薦的原理235
7.9.2交替最小二乘協同過濾推薦算法236
7.10實驗3: Spark機器學習實驗239
7.11拓展閱讀——工匠精神240
7.12習題241
第8章數據可視化242
8.1WordCloud242
8.2PyeCharts247
8.2.1繪製柱狀圖248
8.2.2繪製折線圖250
8.2.3繪製餅圖252
8.2.4繪製雷達圖252
8.2.5繪製漏斗圖253
8.2.6繪製3D柱狀圖254
8.2.7繪製詞雲圖255
8.3Plotly256
8.3.1繪製折線圖256
8.3.2繪製柱狀圖257
8.3.3繪製餅圖259
8.4拓展閱讀——文化自信260
8.5習題260
參考文獻261