Hadoop+Spark大數據巨量分析與機器學習整合開發實戰

《Hadoop + Spark 大數據巨量分析與機器學習整合開發實戰》從淺顯易懂的“大數據和機器學習”原理介紹和說明入手，講述大數據和機器學習的基本概念，如：分類、分析、訓練、建模、預測、機器學習（推薦引擎）、機器學習（二元分類）、機器學習（多元分類）、機器學習（回歸分析）和數據可視化套用。為降低讀者學習大數據技術的門檻，書中提供了豐富的上機實踐操作和範例程式詳解，展示了如何在單台Windows系統上通過Virtual Box虛擬機安裝多台Linux虛擬機，如何建立Hadoop集群，再建立Spark開發環境。書中介紹搭建的上機實踐平台並不限制於單台實體計算機。對於有條件的公司和學校，參照書中介紹的搭建過程，同樣可以將實踐平台搭建在多台實體計算機上，以便更加接近於大數據和機器學習真實的運行環境。

　　《Hadoop + Spark 大數據巨量分析與機器學習整合開發實戰》非常適合於學習大數據基礎知識的初學者閱讀，*適合正在學習大數據理論和技術的人員作為上機實踐用的教材。

第1章大數據與機器學習

1．1 大數據定義

1．2 Hadoop簡介

1．3 Hadoop HDFS分散式檔案系統

1．4 Hadoop MapReduce的介紹

1．5 Spark的介紹

1．6 機器學習的介紹

第2章 VirtualBox虛擬機軟體的安裝

2．1 VirtualBox的下載和安裝

2．2 設定VirtualBox語言版本

2．3 設定VirtualBox存儲資料夾

2．4 在VirtualBox創建虛擬機

第3章 Ubuntu Linux作業系統的安裝

3．1 下載安裝Ubuntu的光碟檔案

3．2 在Virtual設定Ubuntu虛擬光碟檔案

3．3 開始安裝Ubuntu

3．4 啟動Ubuntu

3．5 安裝增強功能

3．6 設定默認輸入法

3．7 設定“終端”程式

3．8 設定“終端”程式為白底黑字

3．9 設定共享剪貼簿

第4章 Hadoop Single Node Cluster的安裝

4．1 安裝JDK

4．2 設定SSH無密碼登錄

4．3 下載安裝Hadoop

4．4 設定Hadoop環境變數

4．5 修改Hadoop配置設定檔案

4．6 創建並格式化HDFS目錄

4．7 啟動Hadoop

4．8 打開Hadoop ResourceManager Web界面

4．9 NameNode HDFS Web界面

第5章 Hadoop Multi Node Cluster的安裝

5．1 把Single Node Cluster複製到data1

Hadoop+Spark大數據巨量分析與機器學習整合開發實戰

基本介紹

相關詞條

熱門詞條