本書以理解了Hadoop基礎知識的讀者為對象,總結了實際環境下熟練操作Hadoop的技術和技巧。這些技巧涵蓋了廣泛的內容,包括從系統構建∕運用、應用程式開發等熟練使用Hadoop特性的方法,到關於HBase、Hive、Pig、Mahout、ZooKeeper等子項目的技巧。書中描述了高效利用Hadoop所必備的工具及其使用方法、以及了解內部運行的方法、更先進的技術等開發環境必備的74個技巧。本書由較早開始關注Hadoop並在實際中靈活使用Hadoop的技術者執筆,是那些希望靈活運用Hadoop的工程師必備的一本書。
基本介紹
- 書名:Hadoop Hacks
- 出版社:中國電力出版社
- 頁數:374頁
- 開本:16
- 品牌:中國電力出版社
- 作者:中野猛 山下真一
- 出版日期:2014年1月1日
- 語種:簡體中文
- ISBN:9787512346352
基本介紹,內容簡介,作者簡介,圖書目錄,
基本介紹
內容簡介
《Hadoop Hacks(中文版)》由中國電力出版社出版。
作者簡介
中野 猛(nakano takeshi) 1976年出生於兵庫縣。從奈良先端大學院大學進入招聘股份公司工作。在信息系統部門MIT中,從事web基礎設施的構建以及R25等網站建立/開發/運用等。期間,推進了Solr等OSS的導入和高速快取、中間設備開發等。近兩年正在以Hadoop為中心進行探索研究。愛好是潛水(最喜歡的地方是墨西哥、拉巴斯)。twitter:@tf0054。
圖書目錄
前言
第1章 系統架構/運用技巧
運行HDFS環境的參數
運行MapReduce環境需要的參數
總結
檔案描述符的設定
Java的安裝
總結
本技巧中介紹的HA的構成
HA集群的構建過程
疑難解答
總結
可以獲取的統計信息
總結
關於CDH3同一版本間的更新
總結
準備
理解操作
使用Oracle的操作確認
總結
Sqoop的PostgreSQL聯合功能
在PostgreSQL中的使用
PostgreSQL聯合的挑戰
總結
什麼是Azkaban
Azkaban的安裝
總結
作業的定製
總結
第2章應用程式開發技巧
將Hadoop配置檔案拷貝到外部應用程式
從應用程式操作MapReduce
總結
什麼是InMapperCombiner
InMapperCombiner的實現方法
總結
自定義Writable類型主要分為兩種
如何生成一個Writable接口的子類
總結
自定義Partitioner的實現方法
總結
什麼是DistributedCache
DistributedCache的使用
總結
自定義CombineFilelnputFormat的實現
自定義CombineFilelnputFormat的使用
總結
獲取MRUnit Jar檔案
Map的測試
Reduce的測試
測試MapReduce作業
總結
生成自定義Writable
生成GroupingComparatorClass
生成PartitionerClass
生成SortComparatorClass
設定各個Comparator
總結
數據的內容
Map端連線的代碼
輸出結果
單獨讀入檔案進行連線
總結
數據的內容
Map的定義
Reduce的定義
作業的定義
輸出結果
總結
定義作業
總結
InputFormat類
OutputFormat類
總結
Cassandra的hadoop程式包內容
Map類
Reduce類
定義作業
總結
獲取檔案系統信息
操作HDFS的API
總結
分析的要點
用計數器可以確認的項目
處理結束後的確認方法
經過一定時間後的確認方法
作業歷史的管理方法
總結
Hadoop中可以處理的壓縮格式
Hadoop中處理lzo壓縮的準備
在MapReduce程式中處理壓縮檔案
在Hive中處理壓縮檔案
總結
第3章HBase技巧
importtsv工具
completebulkload工具
總結
sqoop import
自定義PutTransformer
總結
用於HFileOutputFormat的Mapper
作業的設定
總結
JaVa API
HBase Shell
總結
什麼是協處理器
0bSerVer
EndpOint
總結
創建自定義Filter
配置自定義Filter
總結
export工具
import工具
總結
複製機制
配置
數據的確認
總結
第4章Hive技巧
SQL語句和HiveQL語句的書寫方法的不同
SELECT句中不存在的列不能排序
NULL的處理
ROWNUM關聯
總結
標點字元、帶圈字元的存在
PK的存在
載入數據
Join時的數據保持方法
WHERE句中的比較條件
置換處理和UDF
key數和Out Of Memory
總結
處理單位
ORDER BY語句和SORT BY語句
輸出中間連線表
MapReduce任務不發生的處理
一次連線多個表
總結
查詢高速化的探討
總結
Hive的用戶定義函式
UDF的安裝
UDAF的實現
使用用戶定義函式
總結
什麼是SerDe
文本數據的情況(使用RegexSerDe)
文本數據的情況(使用CSV用的非標準SerDe)
結構化/二進制數據的場合(使用JSON用的非標準SerDe)
總結
使用TRANSFORM句
使用UDAF
總結
使用注釋
使用模式
使用鎖定機制
總結
流程
使用方法
總結
Hive的日誌的種類
通過Hive會話日誌可以確認的內容
總結
Hive—HDFS—RDBMS的關係
向Hive的直接導入
檔案形式和直接導入的關係
列指定WHERE條件指定
指定了Hive的分區key的導入
總結
Hive一Oracle的差異數據的交換
總結
……
第5章 Pig技巧
第6章 Mahout技巧
第7章 ZooKeeper技巧
第1章 系統架構/運用技巧
運行HDFS環境的參數
運行MapReduce環境需要的參數
總結
檔案描述符的設定
Java的安裝
總結
本技巧中介紹的HA的構成
HA集群的構建過程
疑難解答
總結
可以獲取的統計信息
總結
關於CDH3同一版本間的更新
總結
準備
理解操作
使用Oracle的操作確認
總結
Sqoop的PostgreSQL聯合功能
在PostgreSQL中的使用
PostgreSQL聯合的挑戰
總結
什麼是Azkaban
Azkaban的安裝
總結
作業的定製
總結
第2章應用程式開發技巧
將Hadoop配置檔案拷貝到外部應用程式
從應用程式操作MapReduce
總結
什麼是InMapperCombiner
InMapperCombiner的實現方法
總結
自定義Writable類型主要分為兩種
如何生成一個Writable接口的子類
總結
自定義Partitioner的實現方法
總結
什麼是DistributedCache
DistributedCache的使用
總結
自定義CombineFilelnputFormat的實現
自定義CombineFilelnputFormat的使用
總結
獲取MRUnit Jar檔案
Map的測試
Reduce的測試
測試MapReduce作業
總結
生成自定義Writable
生成GroupingComparatorClass
生成PartitionerClass
生成SortComparatorClass
設定各個Comparator
總結
數據的內容
Map端連線的代碼
輸出結果
單獨讀入檔案進行連線
總結
數據的內容
Map的定義
Reduce的定義
作業的定義
輸出結果
總結
定義作業
總結
InputFormat類
OutputFormat類
總結
Cassandra的hadoop程式包內容
Map類
Reduce類
定義作業
總結
獲取檔案系統信息
操作HDFS的API
總結
分析的要點
用計數器可以確認的項目
處理結束後的確認方法
經過一定時間後的確認方法
作業歷史的管理方法
總結
Hadoop中可以處理的壓縮格式
Hadoop中處理lzo壓縮的準備
在MapReduce程式中處理壓縮檔案
在Hive中處理壓縮檔案
總結
第3章HBase技巧
importtsv工具
completebulkload工具
總結
sqoop import
自定義PutTransformer
總結
用於HFileOutputFormat的Mapper
作業的設定
總結
JaVa API
HBase Shell
總結
什麼是協處理器
0bSerVer
EndpOint
總結
創建自定義Filter
配置自定義Filter
總結
export工具
import工具
總結
複製機制
配置
數據的確認
總結
第4章Hive技巧
SQL語句和HiveQL語句的書寫方法的不同
SELECT句中不存在的列不能排序
NULL的處理
ROWNUM關聯
總結
標點字元、帶圈字元的存在
PK的存在
載入數據
Join時的數據保持方法
WHERE句中的比較條件
置換處理和UDF
key數和Out Of Memory
總結
處理單位
ORDER BY語句和SORT BY語句
輸出中間連線表
MapReduce任務不發生的處理
一次連線多個表
總結
查詢高速化的探討
總結
Hive的用戶定義函式
UDF的安裝
UDAF的實現
使用用戶定義函式
總結
什麼是SerDe
文本數據的情況(使用RegexSerDe)
文本數據的情況(使用CSV用的非標準SerDe)
結構化/二進制數據的場合(使用JSON用的非標準SerDe)
總結
使用TRANSFORM句
使用UDAF
總結
使用注釋
使用模式
使用鎖定機制
總結
流程
使用方法
總結
Hive的日誌的種類
通過Hive會話日誌可以確認的內容
總結
Hive—HDFS—RDBMS的關係
向Hive的直接導入
檔案形式和直接導入的關係
列指定WHERE條件指定
指定了Hive的分區key的導入
總結
Hive一Oracle的差異數據的交換
總結
……
第5章 Pig技巧
第6章 Mahout技巧
第7章 ZooKeeper技巧