Spark高級數據分析

Spark高級數據分析

《Spark高級數據分析》是2015年人民郵電出版社出版的圖書,作者是里扎 、萊瑟森、歐文、威爾斯。

基本介紹

  • 書名:Spark高級數據分析
  • 作者:[美]里扎(SandyRyza)、[美]萊瑟森(UriLaserson)、[英]歐文(SeanOwen)、[美]威爾斯(JoshWills)
  • 譯者:岳新欣
  • ISBN:978-7-115-40474-9
  • 頁數:226頁
  • 定價:59元
  • 出版社:人民郵電出版社
  • 出版時間:2015-11
  • 開本:16開
圖書簡介,目錄,

圖書簡介

本書是使用Spark進行大規模數據分析的實戰寶典,由大數據公司Cloudera的數據科學家撰寫。四位作者首先結合數據科學和大數據分析的廣闊背景講解了Spark,然後介紹了用Spark和Scala進行數據處理的基礎知識,接著討論了如何將Spark用於機器學習,同時介紹了常見套用中幾個常用的算法。此外還收集了一些更加新穎的套用,比如通過文本隱含語義關係來查詢Wikipedia或分析基因數據。

目錄

推薦序 ix
譯者序 xi
序 xiii
前言 xv
第1 章 大數據分析 1
1.1 數據科學面臨的挑戰 2
1.2 認識Apache Spark 4
1.3 關於本書 5
第2 章 用Scala 和Spark 進行數據分析 7
2.1 數據科學家的Scala 8
2.2 Spark 編程模型 9
2.3 記錄關聯問題 9
2.4 小試牛刀:Spark shell 和SparkContext 10
2.5 把數據從集群上獲取到客戶端 15
2.6 把代碼從客戶端傳送到集群 18
2.7 用元組和case class 對數據進行結構化 19
2.8 聚合 23
2.9 創建直方圖 24
2.10 連續變數的概要統計 25
2.11 為計算概要信息創建可重用的代碼 26
2.12 變數的選擇和評分簡介 30
2.13 小結 31
第3 章 音樂推薦和Audioscrobbler 數據集 33
3.1 數據集 34
3.2 交替最小二乘推薦算法 35
3.3 準備數據 37
3.4 構建第一個模型 39
3.5 逐個檢查推薦結果 42
3.6 評價推薦質量 43
3.7 計算AUC 44
3.8 選擇超參數 46
3.9 產生推薦 48
3.10 小結 49
第4 章  用決策樹算法預測森林植被 51
4.1 回歸簡介 52
4.2 向量和特徵 52
4.3 樣本訓練 53
4.4 決策樹和決策森林 54
4.5 Covtype 數據集 56
4.6 準備數據 57
4.7 第一棵決策樹 58
4.8 決策樹的超參數 62
4.9 決策樹調優 63
4.10 重談類別型特徵 65
4.11 隨機決策森林 67
4.12 進行預測 69
4.13 小結 69
第5 章 基於K 均值聚類的網路流量異常檢測 71
5.1 異常檢測 72
5.2 K 均值聚類 72
5.3 網路入侵 73
5.4 KDD Cup 1999 數據集 73
5.5 初步嘗試聚類 74
5.6 K 的選擇 76
5.7 基於R 的可視化 79
5.8 特徵的規範化 81
5.9 類別型變數 83
5.10 利用標號的熵信息 84
5.11 聚類實戰 85
5.12 小結 86
第6 章 基於潛在語義分析算法分析維基百科 89
6.1 詞項- 文檔矩陣 90
6.2 獲取數據 91
6.3 分析和準備數據 92
6.4 詞形歸併 93
6.5 計算TF-IDF 94
6.6 奇異值分解 97
6.7 找出重要的概念 98
6.8 基於低維近似的查詢和評分 101
6.9 詞項- 詞項相關度 102
6.10 文檔- 文檔相關度 103
6.11 詞項- 文檔相關度 105
6.12 多詞項查詢 106
6.13 小結 107
第7 章 用GraphX 分析伴生網路 109
7.1 對MEDLINE 文獻引用索引的網路分析 110
7.2 獲取數據 111
7.3 用Scala XML 工具解析XML 文檔 113
7.4 分析MeSH 主要主題及其伴生關係 114
7.5 用GraphX 來建立一個伴生網路 116
7.6 理解網路結構 119
7.6.1 連通組件 119
7.6.2 度的分布 122
7.7 過濾噪聲邊 124
7.7.1 處理EdgeTriplet 125
7.7.2 分析去掉噪聲邊的子圖 126
7.8 小世界網路 127
7.8.1 系和聚類係數 128
7.8.2 用Pregel 計算平均路徑長度 129
7.9 小結 133
第8 章 紐約計程車軌跡的空間和時間數據分析 135
8.1 數據的獲取 136
8.2 基於Spark 的時間和空間數據分析 136
8.3 基於JodaTime 和NScalaTime 的時間數據處理 137
8.4 基於Esri Geometry API 和Spray 的地理空間數據處理 138
8.4.1 認識Esri Geometry API 139
8.4.2 GeoJSON 簡介 140
8.5 紐約市計程車客運數據的預處理 142
8.5.1 大規模數據中的非法記錄處理 143
8.5.2 地理空間分析 147
8.6 基於Spark 的會話分析 149
8.7 小結 153
第9 章 基於蒙特卡羅模擬的金融風險評估 155
9.1 術語 156
9.2 VaR 計算方法 157
9.2.1 方差- 協方差法 157
9.2.2 歷史模擬法 157
9.2.3 蒙特卡羅模擬法 157
9.3 我們的模型 158
9.4 獲取數據 158
9.5 數據預處理 159
9.6 確定市場因素的權重 162
9.7 採樣 164
9.8 運行試驗 167
9.9 回報分布的可視化 170
9.10 結果的評估 171
9.11 小結 173
第10 章 基因數據分析和BDG 項目 175
10.1 分離存儲與模型 176
10.2 用ADAM CLI 導入基因學數據 178
10.3 從ENCODE 數據預測轉錄因子結合位點 185
10.4 查詢1000 Genomes 項目中的基因型 191
10.5 小結 193
第11 章 基於PySpark 和Thunder 的神經圖像數據分析 195
11.1 PySpark 簡介 196
11.2 Thunder 工具包概況和安裝 199
11.3 用Thunder 載入數據 200
11.4 用Thunder 對神經元進行分類 207
11.5 小結 211
附錄A Spark 進階 213
附錄B 即將發布的MLlib Pipelines API 221
作者介紹 226
封面介紹 226

相關詞條

熱門詞條

聯絡我們