大數據分散式計算與案例

內容簡介

大數據分散式計算課程是大數據方向套用統計專業碩士學生的專業必修課，通過本課程的學習使學生能夠掌握目前大數據挖掘領域常用的並行計算方法，加深學生對統計並行計算的理解，培養學生使用在現代並行架構下利用統計方法深入挖掘大數據中的數據結構並能解決一些實際問題的能力。

圖書目錄

第1章統計分析與並行計算

1.1 並行計算與並行計算機

1.2 統計計算的並行原理||以矩陣乘法為例

1.3 基於R 的單機並行計算

1.4 基於Python 的單機並行計算

1.5 大數據背景下的數據採集和存儲

1.6 參考文獻

第2章 Hadoop 基礎

2.1 Hadoop 歷史、生態系統

2.2 Hadoop 的分散式檔案系統(HDFS)

2.3 MapReduce 工作原理

2.4 Hadoop 上運行MapReduce

2.5 MapReduce 實例: 分層隨機抽樣

2.6 MapReduce 實例: 聚類分析

2.7 參考文獻

第3章基於Hadoop 的分散式算法和模型實現

3.1 R 中實現Hadoop 分散式計算

3.2 Mahout 與大數據機器學習

3.3 利用Mahout 進行數據挖掘

3.4 Mahout 實例: Logistics 回歸和隨機森林分類算法

3.5 Mahout 實例: 隨機森林的分散式實現

3.6 參考文獻

第4章統計模型的MapReduce 實現詳解

4.1 泊松回歸模型: 付費搜尋廣告分析

4.2 判別分析: 氣象因素對霧霾影響分析

4.3 分塊Logistics 回歸

4.4 文本分類

4.5 樸素貝葉斯模型

4.6 嶺回歸模型

4.7 推薦系統

4.8 參考文獻

第5章分散式檔案訪問與計算

5.1 Hive 基礎

5.2 HiveQL 數據定義(DDL)

5.3 HBase

5.4 Hive 實例: FoodMart 案例

5.5 Hive 實例: Hive Streaming 互動計算

5.6 參考文獻

第6章 Spark 與統計模型

6.1 Spark 簡介

6.2 Spark 工作原理介紹

6.3 Pyspark 命令介紹

6.4 Spark 實例: 通過Word Count 了解Spark 工作流程

大數據分散式計算與案例

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條