Hadoop+Spark大數據巨量分析與機器學習整合開發實戰

Hadoop+Spark大數據巨量分析與機器學習整合開發實戰

《Hadoop+Spark大數據巨量分析與機器學習整合開發實戰》是2017年清華大學出版社出版的圖書,作者是林大貴。

基本介紹

  • 中文名:Hadoop+Spark大數據巨量分析與機器學習整合開發實戰
  • 作者:林大貴
  • 出版時間:2017年1月1日
  • ISBN:9787302453758
內容簡介,圖書目錄,

內容簡介

《Hadoop + Spark 大數據巨量分析與機器學習整合開發實戰》從淺顯易懂的“大數據和機器學習”原理介紹和說明入手,講述大數據和機器學習的基本概念,如:分類、分析、訓練、建模、預測、機器學習(推薦引擎)、機器學習(二元分類)、機器學習(多元分類)、機器學習(回歸分析)和數據可視化套用。為降低讀者學習大數據技術的門檻,書中提供了豐富的上機實踐操作和範例程式詳解,展示了如何在單台Windows系統上通過Virtual Box虛擬機安裝多台Linux虛擬機,如何建立Hadoop集群,再建立Spark開發環境。書中介紹搭建的上機實踐平台並不限制於單台實體計算機。對於有條件的公司和學校,參照書中介紹的搭建過程,同樣可以將實踐平台搭建在多台實體計算機上,以便更加接近於大數據和機器學習真實的運行環境。
  《Hadoop + Spark 大數據巨量分析與機器學習整合開發實戰》非常適合於學習大數據基礎知識的初學者閱讀,*適合正在學習大數據理論和技術的人員作為上機實踐用的教材。

圖書目錄

第1章 大數據與機器學習
1.1 大數據定義
1.2 Hadoop簡介
1.3 Hadoop HDFS分散式檔案系統
1.4 Hadoop MapReduce的介紹
1.5 Spark的介紹
1.6 機器學習的介紹
第2章 VirtualBox虛擬機軟體的安裝
2.1 VirtualBox的下載和安裝
2.2 設定VirtualBox語言版本
2.3 設定VirtualBox存儲資料夾
2.4 在VirtualBox創建虛擬機
第3章 Ubuntu Linux作業系統的安裝
3.1 下載安裝Ubuntu的光碟檔案
3.2 在Virtual設定Ubuntu虛擬光碟檔案
3.3 開始安裝Ubuntu
3.4 啟動Ubuntu
3.5 安裝增強功能
3.6 設定默認輸入法
3.7 設定“終端”程式
3.8 設定“終端”程式為白底黑字
3.9 設定共享剪貼簿
第4章 Hadoop Single Node Cluster的安裝
4.1 安裝JDK
4.2 設定SSH無密碼登錄
4.3 下載安裝Hadoop
4.4 設定Hadoop環境變數
4.5 修改Hadoop配置設定檔案
4.6 創建並格式化HDFS目錄
4.7 啟動Hadoop
4.8 打開Hadoop ResourceManager Web界面
4.9 NameNode HDFS Web界面
第5章 Hadoop Multi Node Cluster的安裝
5.1 把Single Node Cluster複製到data1
5.2 設定VirtualBox網卡
5.3 設定data1伺服器
5.4 複製data1伺服器到data2、data3、master
5.5 設定data2、data3伺服器
5.6 設定master伺服器
5.7 master連線到data1、data2、data3創建HDFS目錄
5.8 創建並格式化NameNode HDFS目錄
5.9 啟動Hadoop Multi Node Cluster
5.10 打開Hadoop ResourceManager Web界面
5.11 打開NameNode Web界面
第6章 Hadoop HDFS命令
6.1 啟動Hadoop Multi-Node Cluster
6.2 創建與查看HDFS目錄
6.3 從本地計算機複製檔案到HDFS
6.4 將HDFS上的檔案複製到本地計算機
6.5 複製與刪除HDFS檔案
6.6 在Hadoop HDFS Web用戶界面瀏覽HDFS
第7章 Hadoop MapReduce
7.1 介紹wordCount.Java
7.2 編輯wordCount.Java
7.3 編譯wordCount.Java
7.4 創建測試文本檔案
7.5 運行wordCount.Java
7.6 查看運行結果
7.7 Hadoop MapReduce的缺點
第8章 Spark的安裝與介紹
8.1 Spark的Cluster模式架構圖
8.2 Scala的介紹與安裝
8.3 安裝Spark
8.4 啟動spark-shell互動界面
8.5 設定spark-shell顯示信息
8.6 啟動Hadoop
8.7 本地運行spark-shell程式
8.8 在Hadoop YARN運行spark-shell
8.9 構建Spark Standalone Cluster執行環境
8.10 在Spark Standalone運行spark-shell
第9章 Spark RDD
9.1 RDD的特性
9.2 基本RDD“轉換”運算
9.3 多個RDD“轉換”運算
9.4 基本“動作”運算
9.5 RDD Key-Value 基本“轉換”運算
9.6 多個RDD Key-Value“轉換”運算
9.7 Key-Value“動作”運算
9.8 Broadcast廣播變數
9.9 accumulator累加器
9.10 RDD Persistence持久化
9.11 使用Spark創建WordCount
9.12 Spark WordCount詳細解說
第10章 Spark的集成開發環境
10.1 下載與安裝eclipse Scala IDE
10.2 下載項目所需要的Library
10.3 啟動eclipse
10.4 創建新的Spark項目
10.5 設定項目程式庫
10.6 新建scala程式
10.7 創建WordCount測試文本檔案
10.8 創建WordCount.scala
10.9 編譯WordCount.scala程式
10.10 運行WordCount.scala程式
10.11 導出jar檔案
10.12 spark-submit的詳細介紹
10.13 在本地local模式運行WordCount程式
10.14 在Hadoop yarn-client運行WordCount程式
10.15 在Spark Standalone Cluster上運行WordCount程式
10.16 本書範例程式的安裝說明
第11章 創建推薦引擎
11.1 推薦算法介紹
11.2 “推薦引擎”大數據分析使用場景
11.3 ALS推薦算法的介紹
11.4 ml-100k推薦數據的下載與介紹
11.5 使用spark-shell導入ml-100k數據
11.6 查看導入的數據
11.7 使用ALS.train進行訓練
11.8 使用模型進行推薦
11.9 顯示推薦的電影名稱
11.10 創建Recommend項目
11.11 Recommend.scala程式代碼
11.12 創建PrepareData()數據準備
11.13 recommend()推薦程式代碼
11.14 運行Recommend.scala
11.15 創建AlsEvaluation.scala調校推薦引擎參數
11.16 創建PrepareData()數據準備
11.17 進行訓練評估
11.18 運行AlsEvaluation
11.19 修改Recommend.scala為佳參數組合
第12章 StumbleUpon數據集
12.1 StumbleUpon數據集簡介
12.2 下載StumbleUpon數據
12.3 用LibreOffice Calc 電子表格查看train.tsv
12.4 二元分類算法
第13章 決策樹二元分類
13.1 決策樹的介紹
13.2 創建Classification項目
13.3 開始輸入RunDecisionTreeBinary.scala程式
13.4 數據準備階段
13.5 訓練評估階段
13.6 預測階段
13.7 運行RunDecisionTreeBinary.scala
13.6 修改RunDecisionTreeBinary調校訓練參數
13.7 運行RunDecisionTreeBinary進行參數調校
13.8 運行RunDecisionTreeBinary不進行參數調校
第14章 邏輯回歸二元分類
14.1 邏輯回歸分析介紹
14.2 RunLogisticRegression WithSGDBinary.scala程式說明
14.3 運行RunLogisticRegression WithSGDBinary.scala進行參數調校
14.4 運行RunLogisticRegression WithSGDBinary.scala不進行參數調校
第15章 支持向量機SVM二元分類
15.1 支持向量機SVM算法的基本概念
15.2 RunSVMWithSGDBinary.scala 程式說明
15.3 運行SVMWithSGD.scala進行參數調校
15.4 運行SVMWithSGD.scala不進行參數調校
第16章 樸素貝葉斯二元分類
16.1 樸素貝葉斯分析原理的介紹
16.2 RunNaiveBayesBinary.scala程式說明
16.3 運行NaiveBayes.scala進行參數調校
16.4 運行NaiveBayes.scala不進行參數調校
第17章 決策樹多元分類
17.1 “森林覆蓋植被”大數據問題分析場景
17.2 UCI Covertype數據集介紹
17.3 下載與查看數據
17.4 創建RunDecisionTreeMulti.scala
17.5 修改RunDecisionTreeMulti.scala程式
17.6 運行RunDecisionTreeMulti.scala進行參數調校
17.7 運行RunDecisionTreeMulti.scala不進行參數調校
第18章 決策樹回歸分析
18.1 Bike Sharing大數據問題分析
18.2 Bike Sharing數據集
18.3 下載與查看數據
18.4 創建RunDecisionTreeRegression.scala
18.5 修改RunDecisionTreeRegression.scala
18.6 運行RunDecisionTreeRegression. scala進行參數調校
18.7 運行RunDecisionTreeRegression. scala不進行參數調校
第19章 使用Apache Zeppelin 數據可視化
19.1 Apache Zeppelin簡介
19.2 安裝Apache Zeppelin
19.3 啟動Apache Zeppelin
19.4 創建新的Notebook
19.5 使用Zeppelin運行Shell 命令
19.6 創建臨時表UserTable
19.7 使用Zeppelin運行年齡統計Spark SQL
19.8 使用Zeppelin運行性別統計Spark SQL
19.9 按照職業統計
19.10 Spark SQL加入文本框輸入參數
19.11 加入選項參數
19.12 同時顯示多個統計欄位
19.13 設定工具列
19.14 設定段落標題
19.15 設定Paragraph段落的寬度
19.16 設定顯示模式

相關詞條

熱門詞條

聯絡我們