Hadoop權威指南(第2版)(2011年清華大學出版社出版的圖書)

Hadoop權威指南(第2版)(2011年清華大學出版社出版的圖書)

本詞條是多義詞,共2個義項
更多義項 ▼ 收起列表 ▲

《Hadoop權威指南(第2版)》是2011年清華大學出版社出版的圖書,作者是Tom White。

基本介紹

  • 中文名: Hadoop權威指南(第2版)
  • 作者:Tom White
  • 出版時間:2011年
  • 出版社: 清華大學出版社
  • ISBN: 9787302257585  
  • 定價:89 元
內容簡介,圖書目錄,

內容簡介

本書從Hadoop的緣起開始,由淺入深,結合理論和實踐,全方位地介紹Hadoop這一高性能處理海量數據集的理想工具。全書共16章,3個附錄,涉及的主題包括:Haddoop簡介;MapReduce簡介;Hadoop分散式檔案系統;Hadoop的I/O、MapReduce應用程式開發;MapReduce的工作機制;MapReduce的類型和格式;MapReduce的特性;如何構建Hadoop集群,如何管理Hadoop;Pig簡介;Hbase簡介;Hive簡介;ZooKeeper簡介;開源工具Sqoop,最後還提供了豐富的案例分析。
本書是Hadoop權威參考,程式設計師可從中探索如何分析海量數據集,管理員可以從中了解如何安裝與運行Hadoop集群。

圖書目錄

第1章 初識Hadoop 1
數據!數據! 1
數據存儲與分析 3
與其他系統相比 4
關係型資料庫管理系統 4
格線計算 6
志願計算 8
1.3.4 Hadoop 發展簡史 9
Apache Hadoop和Hadoop生態圈 12
第2章 關於MapReduce 15
一個氣象數據集 15
數據的格式 15
使用Unix工具進行數據分析 17
使用Hadoop分析數據 18
map階段和reduce階段 18
橫向擴展 27
合併函式 30
運行一個分散式的MapReduce作業 33
Hadoop的Streaming 33
Ruby版本 33
Python版本 36
Hadoop Pipes 37
編譯運行 38
第3章 Hadoop分散式檔案系統 41
HDFS的設計 41
HDFS的概念 43
數據塊 43
namenode和datanode 44
命令行接口 45
基本檔案系統操作 46
Hadoop檔案系統 47
接口 49
Java接口 51
從Hadoop URL中讀取數據 51
通過FileSystem API讀取數據 52
寫入數據 55
目錄 57
查詢檔案系統 57
刪除數據 62
數據流 62
檔案讀取剖析 62
檔案寫入剖析 65
一致模型 68
通過 distcp並行拷貝 70
保持 HDFS 集群的均衡 71
Hadoop的歸檔檔案 71
使用Hadoop歸檔檔案 72
不足 73
第4章 Hadoop I/O 75
數據完整性 75
HDFS的數據完整性 75
LocalFileSystem 76
ChecksumFileSystem 77
壓縮 77
codec 78
壓縮和輸入切分 83
在MapReduce中使用壓縮 84
序列化 86
Writable接口 87
Writable類 89
實現定製的Writable類型 96
序列化框架 101
Avro 103
依據檔案的數據結構 116
寫入SequenceFile 117
MapFile 123
第5章 MapReduce套用開發 129
配置API 130
合併多個源檔案 131
可變的擴展 132
配置開發環境 132
配置管理 132
輔助類GenericOptionsParser,Tool和ToolRunner 135
編寫單元測試 138
mapper 138
reducer 140
本地運行測試數據 141
在本地作業運行器上運行作業 141
測試驅動程式 145
在集群上運行 146
打包 146
啟動作業 146
MapReduce的Web界面 148
獲取結果 151
作業調試 153
使用遠程調試器 158
作業調優 160
分析任務 160
MapReduce的工作流 163
將問題分解成MapReduce作業 163
運行獨立的作業 165
第6章 MapReduce的工作機制 167
剖析MapReduce作業運行機制 167
作業的提交 167
作業的初始化 169
任務的分配 169
任務的執行 170
進度和狀態的更新 170
作業的完成 172
失敗 173
任務失敗 173
tasktracker失敗 175
jobtracker失敗 175
作業的調度 175
Fair Scheduler 176
Capacity Scheduler 177
shuffle和排序 177
map端 177
reduce端 179
配置的調優 180
任務的執行 183
推測式執行 183
重用JVM 184
跳過壞記錄 185
任務執行環境 186
第7章 MapReduce的類型與格式 189
MapReduce的類型 189
默認的MapReduce作業 192
輸入格式 198
輸入分片與記錄 198
文本輸入 209
二進制輸入 213
多種輸入 214
資料庫輸入(和輸出) 215
輸出格式 215
文本輸出 216
二進制輸出 216
多個輸出 217
延遲輸出 224
資料庫輸出 224
第8章 MapReduce的特性 225
計數器 225
內置計數器 225
用戶定義的Java計數器 227
用戶定義的Streaming計數器 232
排序 232
準備 232
部分排序 233
總排序 237
二次排序 241
聯接 247
map端聯接 247
reduce端聯接 249
邊數據分布 252
利用JobConf來配置作業 252
分散式快取 253
MapReduce庫類 257
第9章 構建Hadoop集群 259
集群規範 259
網路拓撲 261
集群的構建和安裝 263
安裝Java 264
創建Hadoop用戶 264
安裝Hadoop 264
測試安裝 265
SSH配置 265
Hadoop配置 266
配置管理 267
環境設定 269
Hadoop守護進程的關鍵屬性 273
Hadoop守護進程的地址和連線埠 278
Hadoop的其他屬性 279
創建用戶賬號 280
安全性 281
Kerberos和Hadoop 282
委託令牌 284
其他安全性改進 285
利用基準測試程式測試Hadoop集群 286
Hadoop基準測試程式 287
用戶的作業 289
雲上的Hadoop 289
Amazon EC2上的Hadoop 290
第10章 管理Hadoop 293
HDFS 293
永久性數據結構 293
安全模式 298
日誌審計 300
工具 300
監控 305
日誌 305
度量 306
Java管理擴展(JMX) 309
維護 312
日常管理過程 312
委任節點和解除節點 313
升級 316
第11章 Pig簡介 321
安裝與運行Pig 322
執行類型 322
運行Pig程式 324
Grunt 324
Pig Latin編輯器 325
示例 325
生成示例 327
與資料庫比較 328
PigLatin 330
結構 330
語句 331
表達式 335
1.4.4 類型 336
模式 338
函式 342
用戶自定義函式 343
過濾UDF 343
計算UDF 347
載入UDF 348
數據處理操作 351
載入和存儲數據 351
過濾數據 352
分組與連線數據 354
對數據進行排序 359
組合和分割數據 360
Pig實戰 361
並行處理 361
參數代換 362
第12章 Hive 365
1.1 安裝Hive 366
1.1.1 Hive外殼環境 367
1.2 示例 368
1.3 運行Hive 369
1.3.1 配置Hive 369
1.3.2 Hive服務 371
1.3.3 Metastore 373
1.4 和傳統資料庫進行比較 375
1.4.1 讀時模式(Schema on Read)vs.寫時模式(Schema on Write) 376
1.4.2 更新、事務和索引 376
1.5 HiveQL 377
1.5.1 數據類型 378
1.5.2 操作和函式 380
1.6 表 381
1.6.1 託管表(Managed Tables)和外部表(External Tables) 381
1.6.2 分區(Partitions)和桶(Buckets) 383
1.6.3 存儲格式 387
1.6.4 導入數據 392
1.6.5 表的修改 394
1.6.6 表的丟棄 395
1.7 查詢數據 395
1.7.1 排序(Sorting)和聚集(Aggregating) 395
1.7.2 MapReduce腳本 396
1.7.3 連線 397
1.7.4 子查詢 400
1.7.5 視圖(view) 401
1.8 用戶定義函式(User-Defined Functions) 402
1.8.1 編寫UDF 403
1.8.2 編寫UDAF 405
第13章 HBase 411
2.1 HBasics 411
2.1.1 背景 412
2.2 概念 412
2.2.1 數據模型的“旋風之旅” 412
2.2.2 實現 413
2.3 安裝 416
2.3.1 測試驅動 417
2.4 客戶機 419
2.4.1 Java 419
2.4.2 Avro,REST,以及Thrift 422
2.5 示例 423
2.5.1 模式 424
2.5.2 載入數據 425
2.5.3 Web查詢 428
2.6 HBase和RDBMS的比較 431
2.6.1 成功的服務 432
2.6.2 HBase 433
2.6.3 實例:HBase的使用 433
2.7 Praxis 435
2.7.1 版本 435
2.7.2 HDFS 436
2.7.3 用戶接口(UI) 437
2.7.4 度量(metrics) 437
2.7.5 模式設計 438
2.7.6 計數器 438
2.7.7 批量載入(bulkloading) 439
第14章 ZooKeeper 441
安裝和運行ZooKeeper 442
示例 443
ZooKeeper中的組成員關係 444
創建組 444
加入組 447
列出組成員 448
ZooKeeper服務 451
數據模型 451
操作 453
實現 457
一致性 458
會話 460
狀態 462
使用ZooKeeper來構建套用 463
配置服務 463
具有可恢復性的ZooKeeper套用 466
鎖服務 470
生產環境中的ZooKeeper 473
可恢復性和性能 473
配置 474
第15章 開源工具Sqoop 477
獲取Sqoop 477
一個導入的例子 479
生成代碼 482
其他序列化系統 482
深入了解資料庫導入 483
導入控制 485
導入和一致性 485
直接模式導入 485
使用導入的數據 486
導入的數據與Hive 487
導入大對象 489
執行導出 491
深入了解導出 493
導出與事務 494
導出和SequenceFile 494
第16章 實例分析 497
Hadoop 在Last.fm的套用 497
Last.fm:社會音樂史上的革命 497
Hadoop a Last.fm 497
用Hadoop產生圖表 498
Track Statistics程式 499
總結 506
Hadoop和Hive在Facebook的套用 506
概要介紹 506
Hadoop a Facebook 506
假想的使用情況案例 509
Hive 512
問題與未來工作計畫 516
Nutch 搜尋引擎 517
背景介紹 517
數據結構 518
Nutch系統利用Hadoop進行數據處理的精選實例 521
總結 530
Rackspace的日誌處理 531
簡史 532
選擇Hadoop 532
收集和存儲 532
日誌的MapReduce模型 533
關於Cascading 539
欄位、元組和管道 540
操作 542
Tap類,Scheme對象和Flow對象 544
Cascading實戰 545
靈活性 548
Hadoop和Cascading在ShareThis的套用 549
總結 552
在Apache Hadoop上的TB位元組數量級排序 553
使用Pig和Wukong來探索10億數量級邊的 網路圖 556
測量社區 558
每個人都在和我說話:Twitter回復關係圖 558
degree(度) 560
對稱連結 561
社區提取 562
附錄A 安裝Apache Hadoop 565
先決條件 565
安裝 565
配置 566
本機模式 567
偽分布模式 567
全分布模式 569
附錄B Cloudera’s Distribution for Hadoop 571
附錄C 準備NCDC天氣數據 573

相關詞條

熱門詞條

聯絡我們