《大數據分散式計算與案例》是2016年7月中國人民大學出版社出版的圖書,作者是李豐。
基本介紹
- 書名:大數據分散式計算與案例
- 作者:李豐
- ISBN:9787300230276
- 定價:29元
- 出版社:中國人民大學出版社
- 出版時間:2016年7月
- 裝幀:平裝
- 開本:16開
內容簡介,圖書目錄,
內容簡介
大數據分散式計算課程是大數據方向套用統計專業碩士學生的專業必修課,通過本課程的學習使學生能夠掌握目前大數據挖掘領域常用的並行計算方法,加深學生對統計並行計算的理解,培養學生使用在現代並行架構下利用統計方法深入挖掘大數據中的數據結構並能解決一些實際問題的能力。
圖書目錄
第1章 統計分析與並行計算
1.1 並行計算與並行計算機
1.2 統計計算的並行原理||以矩陣乘法為例
1.3 基於R 的單機並行計算
1.4 基於Python 的單機並行計算
1.5 大數據背景下的數據採集和存儲
1.6 參考文獻
第2章 Hadoop 基礎
2.1 Hadoop 歷史、生態系統
2.2 Hadoop 的分散式檔案系統(HDFS)
2.3 MapReduce 工作原理
2.4 Hadoop 上運行MapReduce
2.5 MapReduce 實例: 分層隨機抽樣
2.6 MapReduce 實例: 聚類分析
2.7 參考文獻
第3章 基於Hadoop 的分散式算法和模型實現
3.1 R 中實現Hadoop 分散式計算
3.2 Mahout 與大數據機器學習
3.3 利用Mahout 進行數據挖掘
3.4 Mahout 實例: Logistics 回歸和隨機森林分類算法
3.5 Mahout 實例: 隨機森林的分散式實現
3.6 參考文獻
第4章 統計模型的MapReduce 實現詳解
4.1 泊松回歸模型: 付費搜尋廣告分析
4.2 判別分析: 氣象因素對霧霾影響分析
4.3 分塊Logistics 回歸
4.4 文本分類
4.5 樸素貝葉斯模型
4.6 嶺回歸模型
4.7 推薦系統
4.8 參考文獻
第5章 分散式檔案訪問與計算
5.1 Hive 基礎
5.2 HiveQL 數據定義(DDL)
5.3 HBase
5.4 Hive 實例: FoodMart 案例
5.5 Hive 實例: Hive Streaming 互動計算
5.6 參考文獻
第6章 Spark 與統計模型
6.1 Spark 簡介
6.2 Spark 工作原理介紹
6.3 Pyspark 命令介紹
6.4 Spark 實例: 通過Word Count 了解Spark 工作流程
6.5 Spark 實例: 二分類學習
6.6 Spark 實例: 決策樹模型
6.7 參考文獻
附錄A Hadoop 安裝運行
A.1 單機偽分散式安裝
A.2 全分散式集群
附錄B Mahout 安裝與運行
附錄C Hive 安裝運行
C.1 準備
C.2 安裝Hive
C.3 配置Hive
附錄D HBase 安裝運行
D.1 安裝配置HBase
D.2 啟動HBase
附錄E Spark 的配置與安裝
E.1 安裝配置Scala
E.2 安裝配置Spark