《Hadoop大數據開發基礎》是一部由余明輝,張良均 所編著的書籍, 人民郵電出版社出版發行。
基本介紹
- 書名:Hadoop大數據開發基礎
- 作者:餘明輝,張良均
- ISBN:9787115370662
- 出版社:人民郵電出版社
出版信息,內容簡介,目錄,
出版信息
- 出版社:人民郵電出版社
- ISBN:9787115370662
- 版次:1
- 商品編碼:12308506
- 包裝:平裝
- 叢書名:大數據人才培養規劃教材
- 開本:16開
- 出版時間:2018-02-01
- 頁數:188
- 正文語種:中文
內容簡介
本書以任務為導向,較為全面地介紹了Hadoop大數據技術的相關知識。全書共6章,具體內容包括Hadoop介紹、Hadoop集群的搭建及配置、Hadoop基礎操作、MapReduce編程入門、MapReduce進階編程、項目案例:電影網站用戶性別預測。本書的2~5章包含了實訓與課後練習,通過練習和操作實踐,幫助讀者鞏固所學的內容。
目錄
一章 Hadoop介紹 1
1.1 Hadoop概述 1
1.1.1 Hadoop簡介 1
1.1.2 Hadoop的發展歷史 2
1.1.3 Hadoop的特點 3
1.2 Hadoop核心 4
1.2.1 分散式檔案系統——HDFS 4
1.2.2 分散式計算框架——MapReduce 7
1.2.3 集群資源管理器——YARN 9
1.3 Hadoop生態系統 12
1.4 Hadoop套用場景 14
小結 15
二章 Hadoop集群的搭建及配置 16
任務2.1 安裝及配置虛擬機 17
2.1.1 創建Linux虛擬機 17
2.1.2 設定固定IP 25
2.1.3 遠程連線虛擬機 27
2.1.4 虛擬機線上安裝軟體 29
2.1.5 任務實現 32
任務2.2 安裝Java 32
2.2.1 在Windows下安裝Java 33
2.2.2 在Linux下安裝Java 35
2.2.3 任務實現 36
任務2.3 搭建Hadoop完全分散式集群 36
2.3.1 修改配置檔案 36
2.3.2 克隆虛擬機 41
2.3.3 配置SSH免密碼登錄 43
2.3.4 配置時間同步服務 44
2.3.5 啟動關閉集群 46
2.3.6 監控集群 47
小結 50
實訓 50
實訓1 為Hadoop集群增加一個節點 50
實訓2 編寫Shell腳本同步集群時間 51
課後練習 51
第3章 Hadoop基礎操作 53
任務3.1 查看Hadoop集群的基本信息 54
3.1.1 查詢集群的存儲系統信息 55
3.1.2 查詢集群的計算資源信息 58
任務3.2 上傳檔案到HDFS目錄 59
3.2.1 了解HDFS檔案系統 59
3.2.2 掌握HDFS的基本操作 62
3.2.3 任務實現 65
任務3.3 運行MapReduce任務 67
3.3.1 了解Hadoop官方的示例程式包 67
3.3.2 提交MapReduce任務給集群運行 68
任務3.4 管理多個MapReduce任務 71
3.4.1 查詢MapReduce任務 72
3.4.2 中斷MapReduce任務 74
小結 76
實訓 77
實訓1 統計檔案中所有單詞的平均長度 77
實訓2 查詢與中斷MapReduce任務 77
課後練習 78
第4章 MapReduce編程入門 80
任務4.1 使用Eclipse創建MapReduce工程 81
4.1.1 下載與安裝Eclipse 81
4.1.2 配置MapReduce環境 82
4.1.3 新建MapReduce工程 84
任務4.2 通過源碼初識MapReduce編程 86
4.2.1 通俗理解MapReduce原理 86
4.2.2 了解MR實現詞頻統計的執行流程 88
4.2.3 讀懂官方提供的WordCount源碼 89
任務4.3 編程實現按日期統計訪問次數 94
4.3.1 分析思路與處理邏輯 94
4.3.2 編寫核心模組代碼 95
4.3.3 任務實現 97
任務4.4 編程實現按訪問次數排序 99
4.4.1 分析思路與處理邏輯 99
4.4.2 編寫核心模組代碼 100
4.4.3 任務實現 102
小結 104
實訓 104
實訓1 獲取成績表的高分記錄 104
實訓2 對兩個檔案中的數據進行合併與去重 105
課後練習 107
第5章 MapReduce進階編程 110
任務5.1 篩選日誌檔案並生成序列化檔案 111
5.1.1 MapReduce輸入格式 111
5.1.2 MapReduce輸出格式 113
5.1.3 任務實現 113
任務5.2 Hadoop Java API讀取序列化日誌檔案 115
5.2.1 FileSystem API管理資料夾 115
5.2.2 FileSystem API操作檔案 119
5.2.3 FileSystem API讀寫數據 121
5.2.4 任務實現 123
任務5.3 最佳化日誌檔案統計程式 124
5.3.1 自定義鍵值類型 124
5.3.2 初步探索Combiner 128
5.3.3 淺析Partitioner 130
5.3.4 自定義計數器 132
5.3.5 任務實現 134
任務5.4 Eclipse提交日誌檔案統計程式 137
5.4.1 傳遞參數 137
5.4.2 Hadoop輔助類ToolRunner 139
5.4.3 Eclipse自動打包並提交任務 140
小結 144
實訓 144
實訓1 統計全球每年的高氣溫和低氣溫 144
實訓2 篩選氣溫在15~25℃之間的數據 145
課後練習 146
第6章 項目案例:電影網站用戶性別預測 151
任務6.1 認識KNN算法 152
6.1.1 KNN算法簡介 152
6.1.2 KNN算法原理及流程 152
任務6.2 數據預處理 154
6.2.1 獲取數據 154
6.2.2 數據變換 155
6.2.3 數據清洗 160
6.2.4 劃分數據集 163
任務6.3 實現用戶性別分類 167
6.3.1 實現思路 167
6.3.2 代碼實現 169
任務6.4 評價分類結果的準確性 179
6.4.1 評價思路 179
6.4.2 實現分類評價 180
6.4.3 尋找優K值 184
小結 188
參考文獻 189
1.1 Hadoop概述 1
1.1.1 Hadoop簡介 1
1.1.2 Hadoop的發展歷史 2
1.1.3 Hadoop的特點 3
1.2 Hadoop核心 4
1.2.1 分散式檔案系統——HDFS 4
1.2.2 分散式計算框架——MapReduce 7
1.2.3 集群資源管理器——YARN 9
1.3 Hadoop生態系統 12
1.4 Hadoop套用場景 14
小結 15
二章 Hadoop集群的搭建及配置 16
任務2.1 安裝及配置虛擬機 17
2.1.1 創建Linux虛擬機 17
2.1.2 設定固定IP 25
2.1.3 遠程連線虛擬機 27
2.1.4 虛擬機線上安裝軟體 29
2.1.5 任務實現 32
任務2.2 安裝Java 32
2.2.1 在Windows下安裝Java 33
2.2.2 在Linux下安裝Java 35
2.2.3 任務實現 36
任務2.3 搭建Hadoop完全分散式集群 36
2.3.1 修改配置檔案 36
2.3.2 克隆虛擬機 41
2.3.3 配置SSH免密碼登錄 43
2.3.4 配置時間同步服務 44
2.3.5 啟動關閉集群 46
2.3.6 監控集群 47
小結 50
實訓 50
實訓1 為Hadoop集群增加一個節點 50
實訓2 編寫Shell腳本同步集群時間 51
課後練習 51
第3章 Hadoop基礎操作 53
任務3.1 查看Hadoop集群的基本信息 54
3.1.1 查詢集群的存儲系統信息 55
3.1.2 查詢集群的計算資源信息 58
任務3.2 上傳檔案到HDFS目錄 59
3.2.1 了解HDFS檔案系統 59
3.2.2 掌握HDFS的基本操作 62
3.2.3 任務實現 65
任務3.3 運行MapReduce任務 67
3.3.1 了解Hadoop官方的示例程式包 67
3.3.2 提交MapReduce任務給集群運行 68
任務3.4 管理多個MapReduce任務 71
3.4.1 查詢MapReduce任務 72
3.4.2 中斷MapReduce任務 74
小結 76
實訓 77
實訓1 統計檔案中所有單詞的平均長度 77
實訓2 查詢與中斷MapReduce任務 77
課後練習 78
第4章 MapReduce編程入門 80
任務4.1 使用Eclipse創建MapReduce工程 81
4.1.1 下載與安裝Eclipse 81
4.1.2 配置MapReduce環境 82
4.1.3 新建MapReduce工程 84
任務4.2 通過源碼初識MapReduce編程 86
4.2.1 通俗理解MapReduce原理 86
4.2.2 了解MR實現詞頻統計的執行流程 88
4.2.3 讀懂官方提供的WordCount源碼 89
任務4.3 編程實現按日期統計訪問次數 94
4.3.1 分析思路與處理邏輯 94
4.3.2 編寫核心模組代碼 95
4.3.3 任務實現 97
任務4.4 編程實現按訪問次數排序 99
4.4.1 分析思路與處理邏輯 99
4.4.2 編寫核心模組代碼 100
4.4.3 任務實現 102
小結 104
實訓 104
實訓1 獲取成績表的高分記錄 104
實訓2 對兩個檔案中的數據進行合併與去重 105
課後練習 107
第5章 MapReduce進階編程 110
任務5.1 篩選日誌檔案並生成序列化檔案 111
5.1.1 MapReduce輸入格式 111
5.1.2 MapReduce輸出格式 113
5.1.3 任務實現 113
任務5.2 Hadoop Java API讀取序列化日誌檔案 115
5.2.1 FileSystem API管理資料夾 115
5.2.2 FileSystem API操作檔案 119
5.2.3 FileSystem API讀寫數據 121
5.2.4 任務實現 123
任務5.3 最佳化日誌檔案統計程式 124
5.3.1 自定義鍵值類型 124
5.3.2 初步探索Combiner 128
5.3.3 淺析Partitioner 130
5.3.4 自定義計數器 132
5.3.5 任務實現 134
任務5.4 Eclipse提交日誌檔案統計程式 137
5.4.1 傳遞參數 137
5.4.2 Hadoop輔助類ToolRunner 139
5.4.3 Eclipse自動打包並提交任務 140
小結 144
實訓 144
實訓1 統計全球每年的高氣溫和低氣溫 144
實訓2 篩選氣溫在15~25℃之間的數據 145
課後練習 146
第6章 項目案例:電影網站用戶性別預測 151
任務6.1 認識KNN算法 152
6.1.1 KNN算法簡介 152
6.1.2 KNN算法原理及流程 152
任務6.2 數據預處理 154
6.2.1 獲取數據 154
6.2.2 數據變換 155
6.2.3 數據清洗 160
6.2.4 劃分數據集 163
任務6.3 實現用戶性別分類 167
6.3.1 實現思路 167
6.3.2 代碼實現 169
任務6.4 評價分類結果的準確性 179
6.4.1 評價思路 179
6.4.2 實現分類評價 180
6.4.3 尋找優K值 184
小結 188
參考文獻 189