《Learning Hbase中文版》是2015年9月電子工業出版社出版的圖書,作者是【印度】Shashwat Shriparv(沙什沃特 謝帕夫)。
基本介紹
- 書名:Learning Hbase中文版
- 作者:【印度】Shashwat Shriparv(沙什沃特 謝帕夫)著
- 譯者:周彥偉 婁帥 蒲聰 譯
- ISBN:978-7-121-27072-7
- 頁數:272頁
- 定價:65.00元
- 出版社:電子工業出版社
- 出版時間:2015年9月出版
- 開本:16開
內容簡介,編輯推薦,作者簡介,譯者介紹,目錄,
內容簡介
《Learning Hbase中文版》是一本介紹HBase 知識的專業書籍,它系統地介紹了HBase 的基本概念,與傳統關係資料庫的功能和特點的對比,自身的配置方法以及安裝方法,同時深入介紹了HBase 的運維管理和故障處理。《Learning Hbase中文版》還介紹了基於HBase的Java編程方法,以及HBase作為大數據工具的一些使用案例,這些足以幫助讀者更好地理解HBase 的架構,更順利地在自己戰朵碑的項目中使用HBase。
《Learning Hbase中文版》不僅適合HBase 初學者自學使用,也適合有HBase 經驗的開發人員作為再檔請甩工具查詢之用,是一本針對HBase 技術的比較完整的通用工具書,希望本書能在實際工作中對讀者有所幫助。
編輯推薦
非常便於快速入門,實戰與原理並重
覆蓋管理與開發,同時適合運維與程式設計師
真實場景,真實案例,與一線實踐無縫銜接
“去哪網”Hbase團隊Leader攜資深工程師傾力獻譯
你可以從本書學到:
理解HBase的基本原理
了解搭建HBase的先決條狼歡糊件
安裝和配置新的HBase集群
通過Hadoop以及HBase參數最佳化集群
使用各種故障排除與運維技術,以保障集群高可用性
掌握HBase數據模型及其操作
了解使用Hadoop工具包的好處
作者簡介
Shashwat Shriparv生於印度比哈爾邦穆扎法爾布爾縣。他先後在穆扎法爾布爾和梅加拉亞邦西隆求學。他在德里英迪拉·甘地國立開放大學獲得計算機套用學士(BCA)學位,在喀拉拉邦科欽科技大學(特里凡得琅 C-DAC)獲得計算機套用碩士(MCA)學位。他在 2010年早些時候開始研究大數據技術,當時他需要做一個用大數據技術存儲和處理日誌的概念驗證(POC)。同時他還有另一個項目,在此項目中需要存儲巨大的不同檔案頭的二進制檔案並要處全催理它們。這時,他開始配置、搭建並測試 Hadoop HBase集群,並為它們寫了一些代碼。在做了一個成功的POC之後,他用 Java REST和 SOAP Web服務做了些開發,並搭立了一個系統,在此系統中通過 Web服務利用 Hadoop存儲和處理日誌,然後在HBase中通過自定義表存儲這些日誌,通過 HBase API和 HBase-Hive映射查詢來讀取數據。Shashwat成功地實現了這個項目,緊接著開始了 1TB到 3TB的大規模二進制檔案頭的處理工作,他把檔案的元數據存儲在 HBase中,檔案本身獄欠盛存在 HDFS上。
Shashwat在特里凡得琅 C-DAC網路取證中心開始戒判籃他的軟體開發生涯,為取證分析開發可達獄船白移動相關軟體。接著,他去了 Genilok Computer Solutions公司,在那裡,他的工作包括:集群計算、HPC技術和 Web技術。
在此之後,他從特里凡得琅到了班加羅爾並加入了 PointCross,在那裡他開始了大數據技術工作,用 Java開發軟體、Web服務和大數據平台。在 PointCross,他的很多項目都是圍繞著大數據技術,例如 Hadoop、HBase、Hive、Pig、 Sqoop、 Flume等。從這裡他又到了 HCL Infosystems公司,開始做 UIDAI項目,這是一個在印度非常有聲望的項目,它為每一個印度居民提供一個唯一身份識別號。在這裡,他工作中使用的技術有:HBase、Hive、 Hadoop、 Pig、 Linux、腳本語言、管理 HBase Hadoop集群、編寫腳本、自動化任務和處理、為集群監控創建儀錶盤。
譯者介紹
去哪兒網資料庫總監,知名DBA、架構師
目錄
第 1 章 了解 HBase 生態系統 1
基於 Hadoop 的 HBase 架構 2
RDBMS 和 HBase 的架構對比 3
HBase 的特徵 3
HBase 在 Hadoop 生態系統中的位置 4
HBase 中的數據表示 5
Hadoop 6
HBase 與關係型資料庫的功能對比 8
行存儲資料庫的邏輯展現 9
列存儲資料庫的邏輯展現 9
HBase 的內部存儲架構 11
開始使用 HBase 11
HBase 是何時出現的 11
HBase 的組件和功能 14
ZooKeeper 14
誰在用 HBase?為什麼要用? 19
什麼時候考慮使用 HBase? 20
什麼時候不使用 HBase? 21
了解一些開源的 HBase 工具 21
Hadoop 和 HBase 版本兼容性對照表 22
HBase 的套用 23
HBase 的優點和缺點 24
小結 25
第 2 章 開啟 HBase 之旅 26
深入理解 HBase 的組件 27
HFile 27
Region 27
可擴展性——理解縱向擴展和橫向擴展的過程 29
讀寫周期 32
Write-Ahead Logs 33
MemStore 33
HBase 內部管理 34
合併 34
Region 分裂 35
Region 分配 36
Region 合併 37
RegionServer 故障轉移 37
HBase 的刪除請求 37
讀寫周期 37
可用的 HBase 發行版本列表 38
HBase 的必備條件和容量規劃 39
DNS 正向解析 39
DNS 反向解析 40
SSH 41
小結 45
第 3 章 搭建 HBase 46
在 Ubuntu 上下載 Java 46
主機配置 52
基於主機檔案 52
基於命令 52
基於檔案 52
基於 DNS 54
安裝和配置 SSH 54
在 Ubuntu/Red Hat/CentOS 上安裝 SSH 55
配置 SSH 55
安裝和配置 NTP 56
容量規劃 57
安裝和配置 Hadoop 58
core-site.xml 63
hdfs-site.xml 63
yarn-site.xml 65
mapred-site.xml 66
hadoop-env.sh 67
yarn-env.sh 67
Hadoop 的啟動步驟 67
配置 Apache HBase 69
在單機模式中配置 HBase 69
在分散式模式中配置 HBase 70
安裝和配置ZooKeeper 74
安裝 Cloudera 版本的Hadoop 和 HBase 76
下載 RPM 包 76
簡易安裝 Cloudera 77
安裝 Hadoop 和 MapReduce 包 77
在 Windows 上安裝 Hadoop 78
小結 81
第 4 章 最佳化 HBase/Hadoop 集群 82
Hadoop/HBase 集群的類型 82
CDH 集群的推薦配置 84
容量規劃 85
最佳化 Hadoop 86
通用最佳化技巧 86
最佳化 Java GC 86
最佳化 Linux 作業系統 87
最佳化 Hadoop 參數 87
最佳化 MapReduce 88
最佳化 HBase 91
Hadoop 91
記憶體 93
Java 93
作業系統 94
HBase 94
最佳化 ZooKeeper 96
Hadoop 中的重要配置檔案 96
HBase 中的重要配置檔案 97
小結 98
第 5 章 HBase 的存儲、框架以及數據類型 99
HBase 的數據類型 100
HBase中的數據存儲——邏輯視圖 vs. 真實物理視圖 101
命名空間 102
HBase 服務 103
行鍵(Row key) 104
列族(Column family) 104
列(Column) 104
單元格(Cell) 104
版本(Version) 104
時間戳(Timestamp) 105
數據模型的操作 105
讀(Get) 105
寫(Put) 106
掃描(Scan) 106
刪除(Delete) 106
版本和原因 107
決定版本數量 108
版本的下界 108
版本的上界 108
模式設計 109
表類型的設計 113
短寬和高瘦設計模式的好處 114
複合鍵設計 115
在 HBase 中計算存儲的數據大小 118
小結 119
第 6 章 HBase 集群運維與故障處理 120
Hadoop shell 命令 121
Hadoop shell 命令的類型 121
HBase shell 命令 140
HBase 管理工具 149
hbck —— HBase 檢查 149
HBase 健康檢查腳本 151
寫 HBase shell 腳本 151
使用 Hadoop 工具或者 JAR 151
用 Hive 連線 HBase 153
HBase region 管理 155
壓縮 155
合併 155
HBase 節點管理 155
服役 155
退役 156
實現安全性 157
安全訪問 157
Kerberos KDC 157
客戶端的安全配置 158
伺服器端的安全配置 159
簡單的安全 160
客戶端配置 161
標籤的安全特性 162
HBase 的訪問控制 163
使用標籤的單元格訪問 168
配置 ZooKeeper 安全 169
HBase 常見錯誤的故障排查和相關說明 170
集群失敗的可能情況 171
監控 HBase 的健康狀況 172
小結 175
第 7 章 HBase 腳本編程 176
HBase 中的備份與恢復技術 176
離線備份/full-shutdown 備份 177
線上備份 178
Windows 上的 HBase 185
在 HBase 中進行腳本編程 185
.irbrc 檔案 187
獲取時間戳 188
開啟調試 189
在 HBase 中開啟 SQL 189
參與 HBase 190
小結 190
第 8 章 HBase Java 編程 191
準備開發環境 192
構建 Java 客戶端程式 192
數據類型 196
數據模型的 Java 操作 196
讀操作 196
寫操作 204
修改操作 206
HBase 過濾器 208
過濾器類型 209
客戶端 API 214
小結 215
第 9 章 HBase Java 高級編程 216
接口、類和異常 216
管理任務編程 218
數據操作代碼 224
MapReduce 和 HBase 226
RESTful 和 Thrift 服務接口 231
RESTful 服務接口 231
Thrift 服務接口 232
HDFS 編程 233
高級主題簡介 237
協處理器 237
布隆過濾器 238
Lily 項目 238
小結 239
第 10 章 HBase 使用案例 240
HBase 在當今行業中的作用 240
HBase 和關係型資料庫的未來的對比 241
一些現實世界中的工程使用案例 241
HBase 在 Facebook 241
HBase 在 Pinterest 243
HBase 在 Groupon 244
HBase 在 LongTail Video 246
HBase 在 Aadhaar(UIDAI) 247
有用的連結和參考 248
小結 249
譯者介紹
去哪兒網資料庫總監,知名DBA、架構師
目錄
第 1 章 了解 HBase 生態系統 1
基於 Hadoop 的 HBase 架構 2
RDBMS 和 HBase 的架構對比 3
HBase 的特徵 3
HBase 在 Hadoop 生態系統中的位置 4
HBase 中的數據表示 5
Hadoop 6
HBase 與關係型資料庫的功能對比 8
行存儲資料庫的邏輯展現 9
列存儲資料庫的邏輯展現 9
HBase 的內部存儲架構 11
開始使用 HBase 11
HBase 是何時出現的 11
HBase 的組件和功能 14
ZooKeeper 14
誰在用 HBase?為什麼要用? 19
什麼時候考慮使用 HBase? 20
什麼時候不使用 HBase? 21
了解一些開源的 HBase 工具 21
Hadoop 和 HBase 版本兼容性對照表 22
HBase 的套用 23
HBase 的優點和缺點 24
小結 25
第 2 章 開啟 HBase 之旅 26
深入理解 HBase 的組件 27
HFile 27
Region 27
可擴展性——理解縱向擴展和橫向擴展的過程 29
讀寫周期 32
Write-Ahead Logs 33
MemStore 33
HBase 內部管理 34
合併 34
Region 分裂 35
Region 分配 36
Region 合併 37
RegionServer 故障轉移 37
HBase 的刪除請求 37
讀寫周期 37
可用的 HBase 發行版本列表 38
HBase 的必備條件和容量規劃 39
DNS 正向解析 39
DNS 反向解析 40
SSH 41
小結 45
第 3 章 搭建 HBase 46
在 Ubuntu 上下載 Java 46
主機配置 52
基於主機檔案 52
基於命令 52
基於檔案 52
基於 DNS 54
安裝和配置 SSH 54
在 Ubuntu/Red Hat/CentOS 上安裝 SSH 55
配置 SSH 55
安裝和配置 NTP 56
容量規劃 57
安裝和配置 Hadoop 58
core-site.xml 63
hdfs-site.xml 63
yarn-site.xml 65
mapred-site.xml 66
hadoop-env.sh 67
yarn-env.sh 67
Hadoop 的啟動步驟 67
配置 Apache HBase 69
在單機模式中配置 HBase 69
在分散式模式中配置 HBase 70
安裝和配置ZooKeeper 74
安裝 Cloudera 版本的Hadoop 和 HBase 76
下載 RPM 包 76
簡易安裝 Cloudera 77
安裝 Hadoop 和 MapReduce 包 77
在 Windows 上安裝 Hadoop 78
小結 81
第 4 章 最佳化 HBase/Hadoop 集群 82
Hadoop/HBase 集群的類型 82
CDH 集群的推薦配置 84
容量規劃 85
最佳化 Hadoop 86
通用最佳化技巧 86
最佳化 Java GC 86
最佳化 Linux 作業系統 87
最佳化 Hadoop 參數 87
最佳化 MapReduce 88
最佳化 HBase 91
Hadoop 91
記憶體 93
Java 93
作業系統 94
HBase 94
最佳化 ZooKeeper 96
Hadoop 中的重要配置檔案 96
HBase 中的重要配置檔案 97
小結 98
第 5 章 HBase 的存儲、框架以及數據類型 99
HBase 的數據類型 100
HBase中的數據存儲——邏輯視圖 vs. 真實物理視圖 101
命名空間 102
HBase 服務 103
行鍵(Row key) 104
列族(Column family) 104
列(Column) 104
單元格(Cell) 104
版本(Version) 104
時間戳(Timestamp) 105
數據模型的操作 105
讀(Get) 105
寫(Put) 106
掃描(Scan) 106
刪除(Delete) 106
版本和原因 107
決定版本數量 108
版本的下界 108
版本的上界 108
模式設計 109
表類型的設計 113
短寬和高瘦設計模式的好處 114
複合鍵設計 115
在 HBase 中計算存儲的數據大小 118
小結 119
第 6 章 HBase 集群運維與故障處理 120
Hadoop shell 命令 121
Hadoop shell 命令的類型 121
HBase shell 命令 140
HBase 管理工具 149
hbck —— HBase 檢查 149
HBase 健康檢查腳本 151
寫 HBase shell 腳本 151
使用 Hadoop 工具或者 JAR 151
用 Hive 連線 HBase 153
HBase region 管理 155
壓縮 155
合併 155
HBase 節點管理 155
服役 155
退役 156
實現安全性 157
安全訪問 157
Kerberos KDC 157
客戶端的安全配置 158
伺服器端的安全配置 159
簡單的安全 160
客戶端配置 161
標籤的安全特性 162
HBase 的訪問控制 163
使用標籤的單元格訪問 168
配置 ZooKeeper 安全 169
HBase 常見錯誤的故障排查和相關說明 170
集群失敗的可能情況 171
監控 HBase 的健康狀況 172
小結 175
第 7 章 HBase 腳本編程 176
HBase 中的備份與恢復技術 176
離線備份/full-shutdown 備份 177
線上備份 178
Windows 上的 HBase 185
在 HBase 中進行腳本編程 185
.irbrc 檔案 187
獲取時間戳 188
開啟調試 189
在 HBase 中開啟 SQL 189
參與 HBase 190
小結 190
第 8 章 HBase Java 編程 191
準備開發環境 192
構建 Java 客戶端程式 192
數據類型 196
數據模型的 Java 操作 196
讀操作 196
寫操作 204
修改操作 206
HBase 過濾器 208
過濾器類型 209
客戶端 API 214
小結 215
第 9 章 HBase Java 高級編程 216
接口、類和異常 216
管理任務編程 218
數據操作代碼 224
MapReduce 和 HBase 226
RESTful 和 Thrift 服務接口 231
RESTful 服務接口 231
Thrift 服務接口 232
HDFS 編程 233
高級主題簡介 237
協處理器 237
布隆過濾器 238
Lily 項目 238
小結 239
第 10 章 HBase 使用案例 240
HBase 在當今行業中的作用 240
HBase 和關係型資料庫的未來的對比 241
一些現實世界中的工程使用案例 241
HBase 在 Facebook 241
HBase 在 Pinterest 243
HBase 在 Groupon 244
HBase 在 LongTail Video 246
HBase 在 Aadhaar(UIDAI) 247
有用的連結和參考 248
小結 249