本書是涵蓋Apache Kafka各方面的具有實踐指導意義的工具書和參考書。作者結合典型的使用場景,對Kafka整個技術體系進行了較為全面的講解,以便讀者能夠舉一反三,直接套用於實踐。同時,本書還對Kafka的設計原理及其流式處理組件進行了較深入的探討,並給出了翔實的案例。本書共分為10章:第1章全面介紹訊息引擎系統以及Kafka的基本概念與特性,快速帶領讀者走進Kafka的世界;第2章簡要回顧了Apache Kafka的發展歷史;第3章詳細介紹了Kafka集群環境的搭建;第4、5章深入探討了Kafka客戶端的使用方法;第6章帶領讀者一覽Kafka內部設計原理;第7~9章以實例的方式講解了Kafka集群的管理、監控與調優;第10章介紹了Kafka新引入的流式處理組件。
基本介紹
- 書名:Apache kafka實戰
- 作者:胡夕
- ISBN:9787121337765
- 類別:數據處理與大數據
- 頁數:400
- 定價:¥89.00
- 出版社:電子工業出版社
- 出版時間:2018-04-26
- 開本:16(185*235)
- 書號:978-7-121-33776-5
圖書介紹,圖書目錄,本書勘誤,
圖書介紹
本書是涵蓋Apache Kafka各方面的具有實踐指導意義的工具書和參考書。作者結合典型的使用場景,對Kafka整個技術體系進行了較為全面的講解,以便讀者能夠舉一反三,直接套用於實踐。同時,本書還對Kafka的設計原理及其流式處理組件進行了較深入的探討,並給出了翔實的案例。
本書共分為10章:第1章全面介紹訊息引擎系統以及Kafka的基本概念與特性,快速帶領讀者走進Kafka的世界;第2章簡要回顧了Apache Kafka的發展歷史;第3章詳細介紹了Kafka集群環境的搭建;第4、5章深入探討了Kafka客戶端的使用方法;第6章帶領讀者一覽Kafka內部設計原理;第7~9章以實例的方式講解了Kafka集群的管理、監控與調優;第10章介紹了Kafka新引入的流式處理組件。
本書共分為10章:第1章全面介紹訊息引擎系統以及Kafka的基本概念與特性,快速帶領讀者走進Kafka的世界;第2章簡要回顧了Apache Kafka的發展歷史;第3章詳細介紹了Kafka集群環境的搭建;第4、5章深入探討了Kafka客戶端的使用方法;第6章帶領讀者一覽Kafka內部設計原理;第7~9章以實例的方式講解了Kafka集群的管理、監控與調優;第10章介紹了Kafka新引入的流式處理組件。
圖書目錄
目錄
第1章 認識Apache Kafka 1
1.1 Kafka快速入門 1
1.1.1 下載並解壓縮Kafka二進制代碼壓縮檔檔案 2
1.1.2 啟動伺服器 3
1.1.3 創建topic 3
1.1.4 傳送訊息 4
1.1.5 消費訊息 4
1.2 訊息引擎系統 5
1.2.1 訊息設計 6
1.2.2 傳輸協定設計 6
1.2.3 訊息引擎范型 6
1.2.4 Java訊息服務 8
1.3 Kafka概要設計 8
1.3.1 吞吐量/延時 8
1.3.2 訊息持久化 11
1.3.3 負載均衡和故障轉移 12
1.3.4 伸縮性 13
1.4 Kafka基本概念與術語 13
1.4.1 訊息 14
1.4.2 topic和partition 16
1.4.3 offset 17
1.4.4 replica 18
1.4.5 leader和follower 18
1.4.6 ISR 19
1.5 Kafka使用場景 20
1.5.1 訊息傳輸 20
1.5.2 網站行為日誌追蹤 20
1.5.3 審計數據收集 20
1.5.4 日誌收集 20
1.5.5 Event Sourcing 21
1.5.6 流式處理 21
1.6 本章小結 21
第2章 Kafka發展歷史 22
2.1 Kafka的歷史 22
2.1.1 背景 22
2.1.2 Kafka橫空出世 23
2.1.3 Kafka開源 24
2.2 Kafka版本變遷 25
2.2.1 Kafka的版本演進 25
2.2.2 Kafka的版本格式 26
2.2.3 新版本功能簡介 26
2.2.4 舊版本功能簡介 31
2.3 如何選擇Kafka版本 35
2.3.1 根據功能場景 35
2.3.2 根據客戶端使用場景 35
2.4 Kafka與Confluent 36
2.5 本章小結 37
第3章 Kafka線上環境部署 38
3.1 集群環境規劃 38
3.1.1 作業系統的選型 38
3.1.2 磁碟規劃 40
3.1.3 磁碟容量規劃 42
3.1.4 記憶體規劃 43
3.1.5 CPU規劃 43
3.1.6 頻寬規劃 44
3.1.7 典型線上環境配置 45
3.2 偽分散式環境安裝 45
3.2.1 安裝Java 46
3.2.2 安裝ZooKeeper 47
3.2.3 安裝單節點Kafka集群 48
3.3 多節點環境安裝 49
3.3.1 安裝多節點ZooKeeper集群 50
3.3.2 安裝多節點Kafka 54
3.4 驗證部署 55
3.4.1 測試topic創建與刪除 55
3.4.2 測試訊息傳送與消費 57
3.4.3 生產者吞吐量測試 58
3.4.4 消費者吞吐量測試 58
3.5 參數設定 59
3.5.1 broker端參數 59
3.5.2 topic級別參數 62
3.5.3 GC參數 63
3.5.4 JVM參數 64
3.5.5 OS參數 64
3.6 本章小結 65
第4章 producer開發 66
4.1 producer概覽 66
4.2 構造producer 69
4.2.1 producer程式實例 69
4.2.2 producer主要參數 75
4.3 訊息分區機制 80
4.3.1 分區策略 80
4.3.2 自定義分區機制 80
4.4 訊息序列化 83
4.4.1 默認序列化 83
4.4.2 自定義序列化 84
4.5 producer攔截器 87
4.6 無訊息丟失配置 90
4.6.1 producer端配置 91
4.6.2 broker端配置 92
4.7 訊息壓縮 92
4.7.1 Kafka支持的壓縮算法 93
4.7.2 算法性能比較與調優 93
4.8 多執行緒處理 95
4.9 舊版本producer 96
4.10 本章小結 98
第5章 consumer開發 99
5.1 consumer概覽 99
5.1.1 消費者(consumer) 99
5.1.2 消費者組(consumer group) 101
5.1.3 位移(offset) 102
5.1.4 位移提交 103
5.1.5 __consumer_offsets 104
5.1.6 消費者組重平衡(consumer group rebalance) 106
5.2 構建consumer 106
5.2.1 consumer程式實例 106
5.2.2 consumer腳本命令 111
5.2.3 consumer主要參數 112
5.3 訂閱topic 115
5.3.1 訂閱topic列表 115
5.3.2 基於正則表達式訂閱topic 115
5.4 訊息輪詢 115
5.4.1 poll內部原理 115
5.4.2 poll使用方法 116
5.5 位移管理 118
5.5.1 consumer位移 119
5.5.2 新版本consumer位移管理 120
5.5.3 自動提交與手動提交 121
5.5.4 舊版本consumer位移管理 123
5.6 重平衡(rebalance) 123
5.6.1 rebalance概覽 123
5.6.2 rebalance觸發條件 124
5.6.3 rebalance分區分配 124
5.6.4 rebalance generation 126
5.6.5 rebalance協定 126
5.6.6 rebalance流程 127
5.6.7 rebalance監聽器 128
5.7 解序列化 130
5.7.1 默認解序列化器 130
5.7.2 自定義解序列化器 131
5.8 多執行緒消費實例 132
5.8.1 每個執行緒維護一個KafkaConsumer 133
5.8.2 單KafkaConsumer實例+多worker執行緒 135
5.8.3 兩種方法對比 140
5.9 獨立consumer 141
5.10 舊版本consumer 142
5.10.1 概覽 142
5.10.2 high-level consumer 143
5.10.3 low-level consumer 147
5.11 本章小結 153
第6章 Kafka設計原理 154
6.1 broker端設計架構 154
6.1.1 訊息設計 155
6.1.2 集群管理 166
6.1.3 副本與ISR設計 169
6.1.4 水印(watermark)和leader epoch 174
6.1.5 日誌存儲設計 185
6.1.6 通信協定(wire protocol) 194
6.1.7 controller設計 205
6.1.8 broker請求處理 216
6.2 producer端設計 219
6.2.1 producer端基本數據結構 219
6.2.2 工作流程 220
6.3 consumer端設計 223
6.3.1 consumer group狀態機 223
6.3.2 group管理協定 226
6.3.3 rebalance場景剖析 227
6.4 實現精確一次處理語義 230
6.4.1 訊息交付語義 230
6.4.2 冪等性producer(idempotent producer) 231
6.4.3 事務(transaction) 232
6.5 本章小結 234
第7章 管理Kafka集群 235
7.1 集群管理 235
7.1.1 啟動broker 235
7.1.2 關閉broker 236
7.1.3 設定JMX連線埠 237
7.1.4 增加broker 238
7.1.5 升級broker版本 238
7.2 topic管理 241
7.2.1 創建topic 241
7.2.2 刪除topic 243
7.2.3 查詢topic列表 244
7.2.4 查詢topic詳情 244
7.2.5 修改topic 245
7.3 topic動態配置管理 246
7.3.1 增加topic配置 246
7.3.2 查看topic配置 247
7.3.3 刪除topic配置 248
7.4 consumer相關管理 248
7.4.1 查詢消費者組 248
7.4.2 重設消費者組位移 251
7.4.3 刪除消費者組 256
7.4.4 kafka-consumer-offset-checker 257
7.5 topic分區管理 258
7.5.1 preferred leader選舉 258
7.5.2 分區重分配 260
7.5.3 增加副本因子 263
7.6 Kafka常見腳本工具 264
7.6.1 kafka-console-producer腳本 264
7.6.2 kafka-console-consumer腳本 265
7.6.3 kafka-run-class腳本 267
7.6.4 查看訊息元數據 268
7.6.5 獲取topic當前訊息數 270
7.6.6 查詢__consumer_offsets 271
7.7 API方式管理集群 273
7.7.1 伺服器端API管理topic 273
7.7.2 伺服器端API管理位移 275
7.7.3 客戶端API管理topic 276
7.7.4 客戶端API查看位移 280
7.7.5 0.11.0.0版本客戶端API 281
7.8 MirrorMaker 285
7.8.1 概要介紹 285
7.8.2 主要參數 286
7.8.3 使用實例 287
7.9 Kafka安全 288
7.9.1 SASL+ACL 289
7.9.2 SSL加密 297
7.10 常見問題 301
7.11 本章小結 304
第8章 監控Kafka集群 305
8.1 集群健康度檢查 305
8.2 MBean監控 306
8.2.1 監控指標 306
8.2.2 指標分類 308
8.2.3 定義和查詢JMX連線埠 309
8.3 broker端JMX監控 310
8.3.1 訊息入站/出站速率 310
8.3.2 controller存活JMX指標 311
8.3.3 備份不足的分區數 312
8.3.4 leader分區數 312
8.3.5 ISR變化速率 313
8.3.6 broker I/O工作處理執行緒空閒率 313
8.3.7 broker網路處理執行緒空閒率 314
8.3.8 單個topic總位元組數 314
8.4 clients端JMX監控 314
8.4.1 producer端JMX監控 314
8.4.2 consumer端JMX監控 316
8.5 JVM監控 317
8.5.1 進程狀態 318
8.5.2 GC性能 318
8.6 OS監控 318
8.7 主流監控框架 319
8.7.1 JmxTool 320
8.7.2 kafka-manager 320
8.7.3 Kafka Monitor 325
8.7.4 Kafka Offset Monitor 327
8.7.5 CruiseControl 329
8.8 本章小結 330
第9章 調優Kafka集群 331
9.1 引言 331
9.2 確定調優目標 333
9.3 集群基礎調優 334
9.3.1 禁止atime更新 335
9.3.2 檔案系統選擇 335
9.3.3 設定swapiness 336
9.3.4 JVM設定 337
9.3.5 其他調優 337
9.4 調優吞吐量 338
9.5 調優延時 342
9.6 調優持久性 343
9.7 調優可用性 347
9.8 本章小結 349
第10章 Kafka Connect與Kafka Streams 350
10.1 引言 350
10.2 Kafka Connect 351
10.2.1 概要介紹 351
10.2.2 standalone Connect 353
10.2.3 distributed Connect 356
10.2.4 開發connector 359
10.3 Kafka Streams 362 10.3.1 流處理 362
10.3.2 Kafka Streams核心概念 364
10.3.3 Kafka Streams與其他框架的異同 368
10.3.4 Word Count實例 369
10.3.5 Kafka Streams套用開發 372
10.3.6 Kafka Streams狀態查詢 382
10.4 本章小結 386
第1章 認識Apache Kafka 1
1.1 Kafka快速入門 1
1.1.1 下載並解壓縮Kafka二進制代碼壓縮檔檔案 2
1.1.2 啟動伺服器 3
1.1.3 創建topic 3
1.1.4 傳送訊息 4
1.1.5 消費訊息 4
1.2 訊息引擎系統 5
1.2.1 訊息設計 6
1.2.2 傳輸協定設計 6
1.2.3 訊息引擎范型 6
1.2.4 Java訊息服務 8
1.3 Kafka概要設計 8
1.3.1 吞吐量/延時 8
1.3.2 訊息持久化 11
1.3.3 負載均衡和故障轉移 12
1.3.4 伸縮性 13
1.4 Kafka基本概念與術語 13
1.4.1 訊息 14
1.4.2 topic和partition 16
1.4.3 offset 17
1.4.4 replica 18
1.4.5 leader和follower 18
1.4.6 ISR 19
1.5 Kafka使用場景 20
1.5.1 訊息傳輸 20
1.5.2 網站行為日誌追蹤 20
1.5.3 審計數據收集 20
1.5.4 日誌收集 20
1.5.5 Event Sourcing 21
1.5.6 流式處理 21
1.6 本章小結 21
第2章 Kafka發展歷史 22
2.1 Kafka的歷史 22
2.1.1 背景 22
2.1.2 Kafka橫空出世 23
2.1.3 Kafka開源 24
2.2 Kafka版本變遷 25
2.2.1 Kafka的版本演進 25
2.2.2 Kafka的版本格式 26
2.2.3 新版本功能簡介 26
2.2.4 舊版本功能簡介 31
2.3 如何選擇Kafka版本 35
2.3.1 根據功能場景 35
2.3.2 根據客戶端使用場景 35
2.4 Kafka與Confluent 36
2.5 本章小結 37
第3章 Kafka線上環境部署 38
3.1 集群環境規劃 38
3.1.1 作業系統的選型 38
3.1.2 磁碟規劃 40
3.1.3 磁碟容量規劃 42
3.1.4 記憶體規劃 43
3.1.5 CPU規劃 43
3.1.6 頻寬規劃 44
3.1.7 典型線上環境配置 45
3.2 偽分散式環境安裝 45
3.2.1 安裝Java 46
3.2.2 安裝ZooKeeper 47
3.2.3 安裝單節點Kafka集群 48
3.3 多節點環境安裝 49
3.3.1 安裝多節點ZooKeeper集群 50
3.3.2 安裝多節點Kafka 54
3.4 驗證部署 55
3.4.1 測試topic創建與刪除 55
3.4.2 測試訊息傳送與消費 57
3.4.3 生產者吞吐量測試 58
3.4.4 消費者吞吐量測試 58
3.5 參數設定 59
3.5.1 broker端參數 59
3.5.2 topic級別參數 62
3.5.3 GC參數 63
3.5.4 JVM參數 64
3.5.5 OS參數 64
3.6 本章小結 65
第4章 producer開發 66
4.1 producer概覽 66
4.2 構造producer 69
4.2.1 producer程式實例 69
4.2.2 producer主要參數 75
4.3 訊息分區機制 80
4.3.1 分區策略 80
4.3.2 自定義分區機制 80
4.4 訊息序列化 83
4.4.1 默認序列化 83
4.4.2 自定義序列化 84
4.5 producer攔截器 87
4.6 無訊息丟失配置 90
4.6.1 producer端配置 91
4.6.2 broker端配置 92
4.7 訊息壓縮 92
4.7.1 Kafka支持的壓縮算法 93
4.7.2 算法性能比較與調優 93
4.8 多執行緒處理 95
4.9 舊版本producer 96
4.10 本章小結 98
第5章 consumer開發 99
5.1 consumer概覽 99
5.1.1 消費者(consumer) 99
5.1.2 消費者組(consumer group) 101
5.1.3 位移(offset) 102
5.1.4 位移提交 103
5.1.5 __consumer_offsets 104
5.1.6 消費者組重平衡(consumer group rebalance) 106
5.2 構建consumer 106
5.2.1 consumer程式實例 106
5.2.2 consumer腳本命令 111
5.2.3 consumer主要參數 112
5.3 訂閱topic 115
5.3.1 訂閱topic列表 115
5.3.2 基於正則表達式訂閱topic 115
5.4 訊息輪詢 115
5.4.1 poll內部原理 115
5.4.2 poll使用方法 116
5.5 位移管理 118
5.5.1 consumer位移 119
5.5.2 新版本consumer位移管理 120
5.5.3 自動提交與手動提交 121
5.5.4 舊版本consumer位移管理 123
5.6 重平衡(rebalance) 123
5.6.1 rebalance概覽 123
5.6.2 rebalance觸發條件 124
5.6.3 rebalance分區分配 124
5.6.4 rebalance generation 126
5.6.5 rebalance協定 126
5.6.6 rebalance流程 127
5.6.7 rebalance監聽器 128
5.7 解序列化 130
5.7.1 默認解序列化器 130
5.7.2 自定義解序列化器 131
5.8 多執行緒消費實例 132
5.8.1 每個執行緒維護一個KafkaConsumer 133
5.8.2 單KafkaConsumer實例+多worker執行緒 135
5.8.3 兩種方法對比 140
5.9 獨立consumer 141
5.10 舊版本consumer 142
5.10.1 概覽 142
5.10.2 high-level consumer 143
5.10.3 low-level consumer 147
5.11 本章小結 153
第6章 Kafka設計原理 154
6.1 broker端設計架構 154
6.1.1 訊息設計 155
6.1.2 集群管理 166
6.1.3 副本與ISR設計 169
6.1.4 水印(watermark)和leader epoch 174
6.1.5 日誌存儲設計 185
6.1.6 通信協定(wire protocol) 194
6.1.7 controller設計 205
6.1.8 broker請求處理 216
6.2 producer端設計 219
6.2.1 producer端基本數據結構 219
6.2.2 工作流程 220
6.3 consumer端設計 223
6.3.1 consumer group狀態機 223
6.3.2 group管理協定 226
6.3.3 rebalance場景剖析 227
6.4 實現精確一次處理語義 230
6.4.1 訊息交付語義 230
6.4.2 冪等性producer(idempotent producer) 231
6.4.3 事務(transaction) 232
6.5 本章小結 234
第7章 管理Kafka集群 235
7.1 集群管理 235
7.1.1 啟動broker 235
7.1.2 關閉broker 236
7.1.3 設定JMX連線埠 237
7.1.4 增加broker 238
7.1.5 升級broker版本 238
7.2 topic管理 241
7.2.1 創建topic 241
7.2.2 刪除topic 243
7.2.3 查詢topic列表 244
7.2.4 查詢topic詳情 244
7.2.5 修改topic 245
7.3 topic動態配置管理 246
7.3.1 增加topic配置 246
7.3.2 查看topic配置 247
7.3.3 刪除topic配置 248
7.4 consumer相關管理 248
7.4.1 查詢消費者組 248
7.4.2 重設消費者組位移 251
7.4.3 刪除消費者組 256
7.4.4 kafka-consumer-offset-checker 257
7.5 topic分區管理 258
7.5.1 preferred leader選舉 258
7.5.2 分區重分配 260
7.5.3 增加副本因子 263
7.6 Kafka常見腳本工具 264
7.6.1 kafka-console-producer腳本 264
7.6.2 kafka-console-consumer腳本 265
7.6.3 kafka-run-class腳本 267
7.6.4 查看訊息元數據 268
7.6.5 獲取topic當前訊息數 270
7.6.6 查詢__consumer_offsets 271
7.7 API方式管理集群 273
7.7.1 伺服器端API管理topic 273
7.7.2 伺服器端API管理位移 275
7.7.3 客戶端API管理topic 276
7.7.4 客戶端API查看位移 280
7.7.5 0.11.0.0版本客戶端API 281
7.8 MirrorMaker 285
7.8.1 概要介紹 285
7.8.2 主要參數 286
7.8.3 使用實例 287
7.9 Kafka安全 288
7.9.1 SASL+ACL 289
7.9.2 SSL加密 297
7.10 常見問題 301
7.11 本章小結 304
第8章 監控Kafka集群 305
8.1 集群健康度檢查 305
8.2 MBean監控 306
8.2.1 監控指標 306
8.2.2 指標分類 308
8.2.3 定義和查詢JMX連線埠 309
8.3 broker端JMX監控 310
8.3.1 訊息入站/出站速率 310
8.3.2 controller存活JMX指標 311
8.3.3 備份不足的分區數 312
8.3.4 leader分區數 312
8.3.5 ISR變化速率 313
8.3.6 broker I/O工作處理執行緒空閒率 313
8.3.7 broker網路處理執行緒空閒率 314
8.3.8 單個topic總位元組數 314
8.4 clients端JMX監控 314
8.4.1 producer端JMX監控 314
8.4.2 consumer端JMX監控 316
8.5 JVM監控 317
8.5.1 進程狀態 318
8.5.2 GC性能 318
8.6 OS監控 318
8.7 主流監控框架 319
8.7.1 JmxTool 320
8.7.2 kafka-manager 320
8.7.3 Kafka Monitor 325
8.7.4 Kafka Offset Monitor 327
8.7.5 CruiseControl 329
8.8 本章小結 330
第9章 調優Kafka集群 331
9.1 引言 331
9.2 確定調優目標 333
9.3 集群基礎調優 334
9.3.1 禁止atime更新 335
9.3.2 檔案系統選擇 335
9.3.3 設定swapiness 336
9.3.4 JVM設定 337
9.3.5 其他調優 337
9.4 調優吞吐量 338
9.5 調優延時 342
9.6 調優持久性 343
9.7 調優可用性 347
9.8 本章小結 349
第10章 Kafka Connect與Kafka Streams 350
10.1 引言 350
10.2 Kafka Connect 351
10.2.1 概要介紹 351
10.2.2 standalone Connect 353
10.2.3 distributed Connect 356
10.2.4 開發connector 359
10.3 Kafka Streams 362 10.3.1 流處理 362
10.3.2 Kafka Streams核心概念 364
10.3.3 Kafka Streams與其他框架的異同 368
10.3.4 Word Count實例 369
10.3.5 Kafka Streams套用開發 372
10.3.6 Kafka Streams狀態查詢 382
10.4 本章小結 386
本書勘誤
書中296頁底部的命令:
bin/admin-kafka-consumer-groups.sh**—command-config producer.config
應該是
bin/kafka-admin-consumer-groups.sh*—command-config admin_jaas.conf
bin/admin-kafka-consumer-groups.sh**—command-config producer.config
應該是
bin/kafka-admin-consumer-groups.sh*—command-config admin_jaas.conf