Hadoop大數據處理

Hadoop大數據處理

人民郵電出版社

基本介紹

中文名：
作者：
類別：
出版社：
出版時間：
定價：
ISBN：
著作權方：

內容簡介,目錄,

內容簡介

數據處理系統

目錄

數據處理系統

雲計算技術

分散式檔案系統

結構化數據

3.2.2 MapReduce作業的運行流程

3.2.3 作業調度

3.2.4 異常處理

3.3 MapReduce套用開發

3.3.1 MapReduce套用開發流程

3.3.2 通過Web界面分析MapReduce套用

3.3.3 MapReduce任務執行的單步跟蹤

3.3.4 多個MapReduce過程的組合模式

3.3.5 使用其他語言編寫MapReduce程式

3.3.6 不同數據源的數據聯結（Join）

3.4 MapReduce設計模式

3.4.1 計數（Counting）

3.4.2 分類（Classfication）

3.4.3 過濾處理（Filtering）

3.4.4 排序（Sorting）

3.4.5 去重計數（Distinct Counting）

3.4.6 相關計數（Cross-Correlation）

3.5 MapReduce算法實踐

3.5.1 最短路徑算法

3.5.2 反向索引算法

3.5.3 PageRank算法

3.6 MapReduce性能調優

3.6.1 MapReduce參數配置最佳化

3.6.2 使用Cominber減少數據傳輸

3.6.3 啟用數據壓縮

3.6.4 使用預測執行功能

3.6.5 重用JVM

本章參考文獻

第4章使用HDFS存儲大數據

4.1 大數據的雲存儲需求

4.2 HDFS架構與流程

4.2.1 系統框架

4.2.2 數據讀取過程

4.2.3 數據寫入過程

4.3 檔案訪問與控制

4.3.1 基於命令行的檔案管理

4.3.2 通過API操作檔案

4.4 HDFS性能最佳化

4.4.1 調整數據塊尺寸

4.4.2 規劃網路與節點

4.4.3 調整服務佇列數量

4.4.4 預留磁碟空間

4.4.5 存儲平衡

4.4.6 根據節點功能最佳化磁碟配置

4.4.7 其他參數

4.5 HDFS的小檔案存儲問題

4.5.1 Hadoop Archive工具

4.5.2 CombineFileInputFormat

4.5.3 SequenceFile格式

4.5.4 相關研究

4.6 HDFS的高可用性問題

4.6.1 基於配置的元數據備份

4.6.2 基於DRBD的元數據備份

4.6.3 Secondary NameNode/CheckpointNode

4.6.4 Backup Node

4.6.5 NameNode熱備份

4.6.6 HDFS的HA方案總結

本章參考文獻

第5章 HBase大資料庫

5.1 大數據環境下的資料庫

5.2 HBase架構與原理

5.2.1 系統架構及組件

5.2.2 數據模型與物理存儲

5.2.3 RegionServer的查找

5.2.4 物理部署與讀寫流程

5.3 管理HBase中的數據

5.3.1 Shell

5.3.2 Java API

5.3.3 非Java語言訪問

5.4 從RDBMS到HBase

5.4.1 行到列與主鍵到行關鍵字

5.4.2 聯合查詢（Join）與去範例化（Denormalization）

5.5 在HBase上運行MapReduce

5.6 HBase性能最佳化

5.6.1 參數配置最佳化

5.6.2 表設計最佳化

5.6.3 更新數據操作最佳化

5.6.4 讀數據操作最佳化

5.6.5 數據壓縮

5.6.6 JVM GC最佳化

5.6.7 負載均衡

5.6.8 性能測試工具

本章參考文獻

第6章大數據的分析處理

6.1 大數據的分析處理概述

6.2 Hive

6.2.1 系統架構及組件

6.2.2 Hive數據結構

6.2.3 數據存儲格式

6.2.4 Hive支持的數據類型

6.2.5 使用HiveQL訪問數據

6.2.6 自定義函式擴展功能

6.3 Pig

6.3.1 Pig架構

6.3.2 Pig Latin語言

6.3.3 使用Pig處理數據

6.4 Hive與Pig的對比

本章參考文獻

第7章 Hadoop環境下的數據整合

7.1 Hadoop計算環境下的數據整合問題

7.2 資料庫整合工具Sqoop

7.2.1 使用Sqoop導入數據

7.2.2 使用Sqoop導出數據

7.2.3 Sqoop與Hive結合

7.2.4 Sqoop對大對象數據的處理

7.3 Hadoop平台內部數據整合工具HCatalog

7.3.1 HCatalog的需求與實現

7.3.2 MapReduce使用HCatalog管理數據

7.3.3 Pig使用HCatalog管理數據

7.3.4 HCatalog的命令行與通知功能

本章參考文獻

第8章 Hadoop集群的管理與維護

8.1 雲計算平台的管理體系

8.2 ZooKeeper——集群中的配置管理與協調者

8.2.1 集群環境下的配置管理

8.2.2 ZooKeeper架構

8.2.3 ZooKeeper的數據模型

8.3 Hadoop集群監控的基礎組件

8.3.1 Nagios

8.3.2 Ganglia

8.3.3 JMX

8.4 Ambari——Hadoop集群部署與監控集成工具

8.5 基於Cacti的Hadoop集群伺服器監控

8.6 Chukwa——集群日誌收集及分析

8.7 基於Kerberos的Hadoop安全管理

8.8 Hadoop集群管理工具分析

本章參考文獻

第9章基於MapReduce的數據挖掘

9.1 數據挖掘及其分散式並行化

9.2 基於MapReduce的數據挖掘與Mahout

9.3 經典數據挖掘算法的MapReduce實例

9.3.1 矩陣乘法

9.3.2 相似度計算

9.4 基於雲計算的數據挖掘實踐及面臨的挑戰

本章參考文獻

第10章面向未來的大數據處理

10.1 下一代計算框架YARN

10.2 大數據的實時互動式分析

10.2.1 Google Dremel

10.2.2 Cloudera Impala

10.3 大數據的圖計算

10.3.1 BSP模型

10.3.2 Google Pregel計算框架

10.3.3 Apache Hama開源項目

本章參考文獻

附錄基於Cygwin的Hadoop環境搭建

附錄A 安裝和配置Cygwin

附錄B 安裝和配置Hadoop

附錄C 運行示例程式驗證Hadoop安裝

附錄D 安裝和配置Eclipse下的Hadoop開發環境

相關詞條

熱門詞條

聯絡我們