基於Hadoop的大數據分析和處理

內容簡介

本書基於雲計算和大數據，介紹大數據處理和分析的技術，分為兩部分。第一部分介紹Hadoop基礎知識，內容包括：Hadoop的槳重習介紹和集群構建、Hadoop的分部式系統架構、MapReduce及其套用、Hadoop的版本特徵及進化。第二部分以雲計算為主題，詳細論述拒嚷台組利用Hadoop的大數據分析和處理工具，以及NoSQL技術，內容包括：雲計算和Hadoop、Amazon服務中的MapReduce套用、Hadoop套用下的大蘭和數據分析、NoSQL、HBase。本書不單純地講述理論和概念，而是譽她紋晚基於目具體的工具和技術(Hadoop和NoSQL)，利用大量實際案例，通過實際的操作和套用來組織大數據處理和分析技術，有利於讀者從工程套用的角度進行實際掌握和利用。適合相關專業的本科生、研究生和軟體工程師學習。

圖書目錄

第1章 Hadoop的介紹和集群構建 2

1.1 Hadoop介紹 2

1.1.1 雲計算和Hadoop 2

1.1.2 Hadoop的歷史 4

1.2 Hadoop構建案例 6

1.2.1 歐美構建案例 6

1.2.2 韓國構建案例 7

1.3 構建Hadoop集群 8

1.3.1 分散式檔案系統 8

1.3.2 構建Hadoop集群的準備事項 12

1.3.3 構建偽分散式 17

1.3.4 分散式集群（Cluster）構建 29

1.4 Hadoop界面 36

1.4.1 Hadoop分散式檔案系統指令界面 36

1.5 總結 40

第2章 Hadoop分散式處理檔案系統 41

2.1 Hadoop分散式檔案系統的設計 42

2.2 概觀Hadoop分散式檔案系統的整體構造 43

2.3 Namenode的角色 44

2.3.1 元數據管理 44

2.3.2 元數據的安全保管——Edits和Fslmage檔案及Secondary Namenode 49

2.3.3 Datanode管理 52

2.4 Datanode的角色 59

2.4.1 block管理 59

2.4.2 數據的複製和過程 61

2.4.3 Datanode添加 63

2.5 總結 65

第3章大數據夜檔鑽和MapReduce 67

3.1 大數據的概要 68

3.1.1 大數據的概念 69

3.1.2 大數據的價值創造 69

3.2 MapReduce 71

3.2.1 MapReduce 示例：詞頻統計（Word Count） 71

3.2.2 MapReduce開原始碼：詞頻統計（Word Count）——Java基礎 75

3.2.3 MapReduce 開原始碼：詞頻統計（Word Count）——獄榜奔Ruby語言基礎 76

3.3 MapReduce的結構 78

3.3.1 通過案例了解MapReduce結構 79

3.3.2 從永章櫃結構性角度進行的MapReduce最最佳化方案 81

3.4 MapReduce的容錯性（Fault Tolerance） 85

3.5 MapReduce的編程 86

3.5.1 搜尋 86

3.5.2 排序 87

3.5.3 倒排索引 87

3.5.4 查找熱門詞 88

3.5.5 合算數字 89

3.6 構建Hadoop：通過MapReduce的案例介紹 90

3.6.1 單詞頻率統計MapReduce的編程 91

3.6.2 MapReduce—用戶界面 95

3.7 總結 99

第4章 Hadoop版本特徵及進化 101

4.1 Hadoop 0.1x版本的API 103

4.2 Hadoop附加功能（append） 107

4.3 Hadoop安全相關功能 109

4.4 Hadoop 2.0.0 alpha 111

4.4.1 安裝Hadoop 2.0.0 112

4.4.2 Hadoop分散式檔案系統的更改 120

4.4.3 跨時代MapReduce框架：YARN 128

4.5 總結 135

第5章雲計算和Hadoop 137

5.1 大規模Hadoop集群的構建和案例 138

5.2 雲基礎設施服務的登場 139

5.2.1 Amazon雲服務 141

5.3 在Amazon EC2中構建Hadoop集群 156

5.3.1 Apache Whirr 156

5.3.2 構建Hadoop 集群 157

5.4 總結 160

第6章 Amazon Elastic MapReduce的倍增利用 161

6.1 Amazon EMR的活用 162

6.1.1 Amazon EMR的概念 162

6.1.2 Amazon EMR的構造 162

6.1.3 Amazon EMR的特徵 163

6.1.4 Amazon EMR的 Job Flow和Step 164

6.1.5 使用Amazon EMR前需要了解的事項 165

6.1.6 Amazon EMR的實戰運用 170

6.2 總結 178

第7章 Hadoop套用下的大數據分析 179

7.1 Hadoop套用下的機器學習（Mahout） 180

7.1.1 設定及編譯 181

7.1.2 K-means 聚類算法 183

7.1.3 基於矢量相似度的協同過濾 188

7.1.4 小結 194

7.2 基於Hadoop的統計分析Rhive（R and Hive） 195

7.2.1 R的設定及靈活運用 195

7.2.2 Hive的設定及靈活運用 198

7.2.3 RHive的設定及靈活運用 201

7.2.4 小結 207

7.3 利用Hadoop的圖形數據處理Giraph 207

7.4 總結 216

第8章數據中的DBMS，NoSQL 217

8.1 NoSQL出現背景：大數據和Web 2.0 218

8.1.1 基於Web 2.0的大數據的登場 218

8.1.2 基於大數據的NoSQL的登場 221

8.1.3 適合大數據和Web 2.0的資料庫NoSQL 222

8.2 NoSQL的定義和類別特徵 226

8.3 NoSQL數據模型概要和分類 229

8.4 NoSQL數據模型化 231

8.4.1 NoSQL數據模型化基本概念 232

8.4.2 一般的NoSQL建模方法 234

8.5 主要NoSQL的比較和選擇 239

8.6 總結 241

第9章 Hbase：Hadoop中的NoSQL 243

9.1 Hadoop生態界中的HBase 244

9.2 HBase介紹 248

9.3 HBase數據模型 250

9.3.1 map 250

9.3.2 持續性（persistent） 250

9.3.3 分布性（distributed） 250

9.3.4 排序性（sorted） 250

9.3.5 多維性（multidimensional） 251

9.3.6 稀疏性（sparse） 254

9.4 HBase的資料庫模式 255

9.5 HBase構造 259

9.6 HBase的構建及運行 261

9.7 HBase的擴展——DuoBase中的HBase 264

9.8 HBase的用戶定義索引 266

9.8.1 HBase用戶定義索引—HFile格式的擴展 267

9.8.2 HBase用戶定義索引—Region的擴展 267

9.9 總結 270

基於Hadoop的大數據分析和處理

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條