Spark大數據技術與套用(2018年人民郵電出版社出版的圖書)

Spark大數據技術與套用(2018年人民郵電出版社出版的圖書)

本詞條是多義詞,共2個義項
更多義項 ▼ 收起列表 ▲

《Spark大數據技術與套用》是2018年人民郵電出版社出版的圖書。作者是肖芳 張良均。本書的大部分章節都包含了實訓與課後習題,通過練習和操作實踐,幫助讀者鞏固所學的內容。

基本介紹

  • 中文名:Spark大數據技術與套用
  • 作者:肖芳、 張良均
  • 出版社:人民郵電出版社
  • ISBN:9787115464880
  • 開本:16 開 
  • 所屬分類:圖書>計算機/網路>行業軟體及套用 
  • 叢書名:大數據人才培養規劃教材 
內容簡介,圖書目錄,

內容簡介

本書以任務為導向,較為全面地介紹了Spark大數據技術的相關知識。全書共9章,具體內容包括Spark概述;Scala基礎;Spark編程;Spark編程進階;Spark SQL:結構化數據檔案處理;Spark Streaming:實時計算框架;Spark GraphX:圖計算框架;Spark MLlib:功能強大的算法庫;項目案例:餐飲平台菜品智慧型推薦。本書的大部分章節都包含了實訓與課後習題,通過練習和操作實踐,幫助讀者鞏固所學的內容。

圖書目錄

第 1章 Spark概述 1
任務1.1 認識Spark 1
1.1.1 Spark的發展 1
1.1.2 Spark的特點 2
1.1.3 Spark生態圈 4
1.1.4 Spark的套用場景 5
任務1.2 搭建Spark環境 5
1.2.1 搭建單機版環境 6
1.2.2 搭建單機偽分散式環境 6
1.2.3 搭建完全分散式環境 7
任務1.3 了解Spark運行架構與原理 10
1.3.1 Spark集群架構 11
1.3.2 Spark作業運行流程 11
1.3.3 Spark核心數據集RDD 15
1.3.4 Spark核心原理 17
小結 19
第 2章 Scala基礎 20
任務2.1 Scala的簡介與安裝 21
2.1.1 Scala簡介 21
2.1.2 Scala特性 21
2.1.3 Scala的環境設定及安裝 21
2.1.4 運行Scala 23
任務2.2 定義函式識別號碼類型 24
2.2.1 數據類型 24
2.2.2 常量和變數 25
2.2.3 表達式 26
2.2.4 數組 27
2.2.5 函式 29
2.2.6 任務實現 31
任務2.3 統計廣州號碼段數量 32
2.3.1 if判斷 32
2.3.2 循環 33
2.3.3 任務實現 34
任務2.4 根據歸屬地對手機號碼段分組 34
2.4.1 List 35
2.4.2 Set 36
2.4.3 Map 37
2.4.4 元組 38
2.4.5 函式組合器 38
2.4.6 任務實現 39
任務2.5 編寫手機號碼歸屬地信息查詢程式 40
2.5.1 Scala類 40
2.5.2 Scala object 42
2.5.3 Scala模式匹配 42
2.5.4 Scala讀取檔案 44
2.5.5 任務實現 44
小結 45
實訓 45
實訓1 編寫函式過濾文本中的回文單詞 45
實訓2 使用Scala編程輸出楊輝三角 46
課後習題 46
第3章 Spark編程 48
任務3.1 以學生成績數據創建RDD 49
3.1.1 從記憶體中已有數據創建RDD 50
3.1.2 從外部存儲創建RDD 51
3.1.3 任務實現 52
任務3.2 查詢學生成績表中的前5名 52
3.2.1 使用map轉換數據 52
3.2.2 使用sortBy()排序 53
3.2.3 使用collect()查詢 53
3.2.4 使用flatMap轉換數據 54
3.2.5 使用take()方式查詢某幾個值 54
3.2.6 任務實現 55
任務3.3 輸出單科成績為100分的學生ID 55
3.3.1 使用union()合併多個RDD 56
3.3.2 使用filter()進行過濾 56
3.3.3 使用distinct()進行去重 56
3.3.4 簡單的集合操作 57
3.3.5 任務實現 58
任務3.4 輸出每位學生所有科目的總成績 58
3.4.1 鍵值對RDD簡介 59
3.4.2 創建鍵值對RDD 59
3.4.3 轉換操作keys與values 59
3.4.4 轉換操作reduceByKey() 60
3.4.5 轉換操作groupByKey() 60
3.4.6 任務實現 60
任務3.5 輸出每位學生的平均成績 61
3.5.1 使用join()連線兩個RDD 61
3.5.2 使用zip組合兩個RDD 63
3.5.3 使用combineByKey合併相同鍵的值 63
3.5.4 使用lookup查找指 定鍵的值 64
3.5.5 任務實現 64
任務3.6 將匯總後的學生成績存儲為文本檔案 65
3.6.1 JSON檔案的讀取與存儲 65
3.6.2 CSV檔案的讀取與存儲 67
3.6.3 SquenceFile的讀取與存儲 69
3.6.4 文本檔案的讀取與存儲 70
3.6.5 任務實現 71
小結 72
實訓 72
實訓1 統計文本中性別為“男”的用戶數 73
實訓2 單詞計數 73
課後習題 74
第4章 Spark編程進階 76
任務4.1 搭建開發環境 77
4.1.1 下載與安裝IntelliJ IDEA 77
4.1.2 Scala外掛程式安裝與使用 79
4.1.3 配置Spark運行環境 84
4.1.4 運行Spark程式 85
任務4.2 使用移動平均預測股票漲跌 92
4.2.1 持久化(快取) 93
4.2.2 數據分區 94
4.2.3 計算價格波動幅度 98
4.2.4 任務實現 100
小結 103
實訓 103
實訓 競賽網站訪問日誌分析 104
課後習題 104
第5章 Spark SQL:結構化數據檔案處理 107
任務5.1 認識Spark SQL 108
5.1.1 Spark SQL簡介 108
5.1.2 Spark SQL CLI配置 109
5.1.3 Spark SQL與Shell互動 110
任務5.2 掌握DataFrame基礎操作 111
5.2.1 創建DataFrame對象 111
5.2.2 DataFrame查看數據 114
5.2.3 DataFrame查詢操作 117
5.2.4 DataFrame輸出操作 123
任務5.3 探索分析法律服務網站數據 125
5.3.1 獲取數據 125
5.3.2 網頁類型分析 126
5.3.3 點擊次數分析 131
5.3.4 網頁排名分析 133
小結 135
實訓 135
實訓1 統計分析航空公司客戶數據的空值以及異常值 135
實訓2 統計分析某公司每年的產品銷售量及銷售額 137
課後習題 139
第6章 Spark Streaming:實時計算框架 141
任務6.1 初探Spark Streaming 142
6.1.1 Spark Streaming概述 142
6.1.2 Spark Streaming運行原理 142
6.1.3 初步使用Spark Streaming 143
任務6.2 掌握DStream編程模型 145
6.2.1 DStream簡介 146
6.2.2 DStream轉換操作 146
6.2.3 DStream視窗操作 148
6.2.4 DStream輸出操作 151
任務6.3 Spark Streaming實時更新熱門博文 155
6.3.1 Spark Streaming輸入數據源 155
6.3.2 Spark Streaming計算網頁熱度 158
6.3.3 網頁熱度輸出 158
6.3.4 任務實現 159
小結 161
實訓 161
實訓1 過濾列印包含單詞error的記錄 162
實訓2 實時過濾歌曲播放次數超過100次的記錄並存儲在HDFS上 162
課後習題 162
第7章 Spark GraphX:圖計算框架 165
任務7.1 認識Spark GraphX 166
7.1.1 圖的基本概念 166
7.1.2 圖計算的套用 167
7.1.3 GraphX的基礎概念 168
7.1.4 GraphX的發展 168
任務7.2 了解GraphX常用API 169
7.2.1 圖的創建與存儲 169
7.2.2 數據查詢與數據轉換 174
7.2.3 結構轉換與關聯聚合 180
任務7.3 構建信任網路並找出目標用戶 187
7.3.1 構建網站信任網路 188
7.3.2 找出需要支付稿酬的用戶 188
7.3.3 找出進入熱門榜的用戶 189
小結 191
實訓 191
實訓1 使用PageRank算法完成網頁排名 191
實訓2 利用二度關係完成商品推薦 192
課後習題 194
第8章 Spark MLlib:功能強大的算法庫 196
任務8.1 了解MLlib算法庫 197
8.1.1 機器學習簡介 197
8.1.2 MLlib介紹 198
任務8.2 以Logistic回歸實現用戶分類 212
8.2.1 分析思路 212
8.2.2 數據處理 213
8.2.3 MLlib實現Logistic回歸 215
8.2.4 任務實現 217
小結 221
實訓 221
實訓1 通過KMeans定位商圈 221
實訓2 樸素貝葉斯進行文本分類 222
課後習題 223
第9章 項目案例:餐飲平台菜品智慧型推薦 226
任務9.1 推薦方案設計 227
9.1.1 用戶數據分析 227
9.1.2 常用推薦算法 229
9.1.3 推薦流程設計 231
任務9.2 數據預處理 232
9.2.1 原始數據探索分析 233
9.2.2 異常數據處理 237
9.2.3 數據變換處理 237
9.2.4 數據集分割 239
任務9.3 建立推薦模型 240
9.3.1 以基於用戶的協同過濾算法建模 240
9.3.2 以基於物品的協同過濾算法建模 243
9.3.3 以基於Spark ALS的協同過濾算法建立模型 246
9.3.4 推薦模型的評測 251
任務9.4 使用模型進行菜品推薦 262
9.4.1 對某用戶推薦10道新菜品 262
9.4.2 對所有用戶進行新菜品推薦 267
小結 272

相關詞條

熱門詞條

聯絡我們