編輯推薦
Elasticsearch 是一個開源的
全文搜尋引擎,很多用戶對於大規模集群套用時遇到的各種問題難以分析處理,或者知其然而不知其所以然。本書分析 Elasticsearch 中重要模組及其實現原理和機制,讓用戶深入理解相關重要配置項意義,應對系統故障時不再迷茫。另外,本書提供實際套用場景中一些常見問題的最佳化建議,這些建議都是作者經過大規模測試及套用驗證過的。
內容提要
《Elasticsearch源碼解析與最佳化實戰》介紹了Elasticsearch的系統原理,旨在幫助讀者了解其內部原理、設計思想,以及在生產環境中如何正確地部署、最佳化系統。系統原理分兩方面介紹,一方面詳細介紹主要流程,例如啟動流程、選主流程、恢複流程;另一方面介紹各重要模組的實現,以及模組之間的關係,例如gateway模組、allocation模組等。本書的最後一部分介紹如何最佳化寫入速度、搜尋速度等大家關心的實際問題,並提供了一些診斷問題的方法和工具供讀者參考。
《Elasticsearch源碼解析與最佳化實戰》適合對Elasticsearch進行改進的研發人員、平台運維人員,對分散式搜尋感興趣的朋友,以及在使用Elasticsearch過程中遇到問題的人們。
目錄
第1章 走進Elasticsearch
1.1 基本概念和原理
1.1.1 索引結構
1.1.2 分片(shard)
1.1.3 動態更新索引
1.1.4 近實時搜尋
1.1.5 段合併
1.2 集群內部原理
1.2.1 集群節點角色
1.2.2 集群健康狀態
1.2.3 集群狀態
1.2.4 集群擴容
1.3 客戶端API
1.4 主要內部模組簡介
1.4.1 模組結構
1.4.2 模組管理
第2章 準備編譯和調試環境
2.1 編譯源碼
2.1.1 準備JDK和Gradle
2.1.2 下載原始碼
2.1.3 編譯項目,打包
2.1.4 將工程導入IntelliJ IDEA
2.2 調試Elasticsearch
2.2.1 本地運行、調試項目
2.2.2 遠程調試
2.3 代碼書籤和斷點組
第3章 集群啟動流程
3.1 選舉主節點
3.2 選舉集群元信息
3.3 allocation過程
3.4 index recovery
3.5 集群啟動日誌
3.6 小結
第4章 節點的啟動和關閉
4.1 啟動流程做了什麼
4.2 啟動流程分析
4.2.1 啟動腳本
4.2.3 載入安全配置
4.2.4 檢查內部環境
4.2.5 檢測外部環境
4.2.6 啟動內部模組
4.2.7 啟動keepalive執行緒
4.3 節點關閉流程
4.4 關閉流程分析
4.5 分片讀寫過程中執行關閉
4.6 主節點被關閉
4.7 小結
第5章 選主流程
5.1 設計思想
5.2 為什麼使用主從模式
5.3 選舉算法
5.4 相關配置
5.5 流程概述
5.6 流程分析
5.6.1 選舉臨時Master
5.6.2 投票與得票的實現
5.6.3 確立Master或加入集群
5.7 節點失效檢測
5.7.1 NodesFaultDetection事件處理
5.7.2 MasterFaultDetection事件處理
5.8 小結
第6章 數據模型
6.1 PacificA算法
6.1.1 數據副本策略
6.1.2 配置管理
6.1.3 錯誤檢測
6.2 ES的數據副本模型
6.2.1 基本寫入模型
6.2.2 寫故障處理
6.2.3 基本讀取模型
6.2.4 讀故障處理
6.2.5 引申的含義
6.2.6 系統異常
6.3 Allocation IDs
6.3.1 安全地分配主分片
6.3.2 將分配標記為陳舊
6.2.3 一個例子
6.3.4 不會丟失全部
6.4 Sequence IDs
6.4.1 Primary Terms和Sequence Numbers
6.4.2 本地及全局檢查點
6.4.3 用於快速恢復(Recovery)
6.5 _version
第7章 寫流程
7.1 文檔操作的定義
7.2 可選參數
7.3 Index/Bulk基本流程
7.4 Index/Bulk詳細流程
7.4.1 協調節點流程
7.4.2 主分片節點流程
7.4.3 副分片節點流程
7.5 I/O異常處理
7.5.1 Engine關閉過程
7.5.2 Master的對應處理
7.5.3 異常流程總結
7.6 系統特性
7.7 思考
第8章 GET流程
8.1 可選參數
8.2 GET基本流程
8.3 GET詳細分析
8.3.1 協調節點
8.3.2 數據節點
8.4 MGET流程分析
8.5 思考
第9章 Search流程
9.1 索引和搜尋
9.1.1 建立索引
9.1.2 執行搜尋
9.2 search type
9.3 分散式搜尋過程
9.3.1 協調節點流程
9.3.2 執行搜尋的數據節點流程
9.4 小結
第10章 索引恢複流程分析
10.1 相關配置
10.2 流程概述
10.3 主分片恢複流程
10.4 副分片恢複流程
10.4.1 流程概述
10.4.2 synced flush機制
10.4.3 副分片節點處理過程
10.4.4 主分片節點處理過程
10.5 recovery速度最佳化
10.6 如何保證副分片和主分片一致
10.7 recovery相關監控命令
10.8 小結
第11章 gateway模組分析
11.1 元數據
11.2 元數據的持久化
11.3 元數據的恢復
11.4 元數據恢複流程分析
11.4.1 選舉集群級和索引級別的元數據
11.4.2 觸發allocation
11.5 思考
第12章 allocation模組分析
12.1 什麼是allocation
12.2 觸發時機
12.3 allocation模組結構概述
12.4 allocators
12.5 deciders
12.5.1 負載均衡類
12.5.2 並發控制類
12.5.3 條件限制類
12.6 核心reroute實現
12.6.1 集群啟動時reroute的觸發時機
12.6.2 流程分析
12.6.3 gatewayAllocator
12.6.4 shardsAllocator
12.7 從gateway到allocation流程的轉換
12.8 從allocation流程到recovery流程的轉換
12.9 思考
第13章 Snapshot模組分析
13.1 倉庫
13.2 快照
13.2.1 創建快照
13.2.2 獲取快照信息
13.2.3 快照status
13.2.4 取消、刪除快照和恢復操作
13.3 從快照恢復
13.3.1 部分恢復
13.3.2 恢復過程中更改索引設定
13.3.3 監控恢復進度
13.4 創建快照的實現原理
13.4.1 Lucene檔案格式簡介
13.4.2 協調節點流程
13.4.3 主節點流程
13.4.4 數據節點流程
13.5 刪除快照實現原理
13.5.1 協調節點流程
13.5.2 主節點流程
13.6 思考與總結
第14章 Cluster模組分析
14.1 集群狀態
14.2 內部封裝和實現
14.2.1 MasterService
14.2.2 ClusterApplierService
14.2.3 執行緒池
14.3 提交集群任務
14.3.1 內部模組如何提交任務
14.3.2 任務提交過程實現
14.4 集群任務的執行過程
14.5 集群狀態的發布過程
14.5.1 增量發布的實現原理
14.5.2 二段提交總流程
14.5.3 發布過程
14.5.4 提交過程
14.5.5 異常處理
14.6 套用集群狀態
14.7 查看等待執行的集群任務
14.8 任務管理API
14.8.1 列出運行中的任務
14.8.2 取消任務
14.9 思考與總結
第15章 Transport模組分析
15.1 配置信息
15.1.1 傳輸模組配置
15.1.2 通用網路配置
15.2 Transport總體架構
15.2.1 網路層
15.2.2 服務層
15.3 REST解析和處理
15.4 RPC實現
15.4.1 RPC的註冊和映射
15.4.2 根據Action獲取處理類
15.5 思考與總結
第16章 ThreadPool模組分析
16.1 執行緒池類型
16.1.1 fixed
16.1.2 scaling
16.1.3 direct
16.1.4 fixed_auto_queue_size
16.2 處理器設定
16.3 查看執行緒池
16.3.1 cat thread pool
16.3.2 nodes info
16.3.3 nodes stats
16.3.4 nodes hot threads
16.3.5 Java的執行緒池結構
16.4 ES的執行緒池實現
16.4.1 ThreadPool類結構與初始化
16.4.2 fixed類型執行緒池構建過程
16.4.3 scaling類型執行緒池構建過程
16.4.4 direct類型執行緒池構建過程
16.4.5 fixed_auto_queue_size類型執行緒池構建過程
16.5 其他執行緒池
16.6 思考與總結
第17章 Shrink原理分析
17.1 準備源索引
17.2 縮小索引
17.3 Shrink的工作原理
17.3.1 創建新索引
17.3.2 創建硬連結
17.3.3 硬連結過程源碼分析
第18章 寫入速度最佳化
18.1 translog flush間隔調整
18.2 索引刷新間隔refresh_interval
18.3 段合併最佳化
18.4 indexing buffer
18.5 使用bulk請求
18.5.1 bulk執行緒池和佇列
18.5.2 並發執行bulk請求
18.6 磁碟間的任務均衡
18.7 節點間的任務均衡
18.8 索引過程調整和最佳化
18.8.1 自動生成doc ID
18.8.2 調整欄位Mappings
18.8.3 調整_source欄位
18.8.4 禁用_all欄位
18.8.5 對Analyzed的欄位禁用Norms
18.8.6 index_options 設定
18.9 參考配置
18.10 思考與總結
第19章 搜尋速度的最佳化
19.1 為檔案系統cache預留足夠的記憶體
19.2 使用更快的硬體
19.3 文檔模型
19.4 預索引數據
19.5 欄位映射
19.6 避免使用腳本
19.7 最佳化日期搜尋
19.8 為唯讀索引執行force-merge
19.9 預熱全局序號(global ordinals)
19.10 execution hint
19.11 預熱檔案系統cache
19.12 轉換查詢表達式
19.13 調節搜尋請求中的batched_reduce_size
19.14 使用近似聚合
19.15 深度優先還是廣度優先
19.16 限制搜尋請求的分片數
19.17 利用自適應副本選擇(ARS)提升ES回響速度
第20章 磁碟使用量最佳化
20.1 預備知識
20.1.1 元數據欄位
20.1.2 索引映射參數
20.2 最佳化措施
20.2.1 禁用對你來說不需要的特性
20.2.2 禁用doc values
20.2.3 不要使用默認的動態字元串映射
20.2.4 觀察分片大小
20.2.5 禁用_source
20.2.6 使用best_compression
20.2.7 Fource Merge
20.2.8 Shrink Index
20.2.9 數值類型長度夠用就好
20.2.10 使用索引排序來排列類似的文檔
20.2.11 在文檔中以相同的順序放置欄位
20.3 測試數據
第21章 綜合套用實踐
21.1 集群層
21.1.1 規劃集群規模
21.1.2 單節點還是多節點部署
21.1.3 移除節點
21.1.4 獨立部署主節點
21.2 節點層
21.2.1 控制執行緒池的佇列大小
21.2.2 為系統cache保留一半物理記憶體
21.3 系統層
21.3.1 關閉swap
21.3.2 配置Linux OOM Killer
21.3.3 最佳化核心參數
21.4 索引層
21.4.1 使用全局模板
21.4.2 索引輪轉
21.4.3 避免熱索引分片不均
21.4.4 副本數選擇
21.4.5 Force Merge
21.4.6 Shrink Index
21.4.7 close索引
21.4.8 延遲分配分片
21.4.9 小心地使用fielddata
21.5 客戶端
21.5.1 使用REST API而非Java API
21.5.2 注意429狀態碼
21.5.3 curl的HEAD請求
21.5.4 了解你的搜尋計畫
21.5.5 為讀寫請求設定比較長的逾時時間
21.6 讀寫
21.6.1 避免搜尋操作返回巨大的結果集
21.6.2 避免索引巨大的文檔
21.6.3 避免使用多個_type
21.6.4 避免使用_all欄位
21.6.5 避免將請求傳送到同一個協調節點
21.7 控制相關度
第22章 故障診斷
22.1 使用Profile API定位慢查詢
22.2 使用Explain API分析未分配的分片(Unassigned Shards)
22.2.1 診斷未分配的主分片
22.2.2 診斷未分配的副分片
22.2.3 診斷已分配的分片
22.3 節點CPU使用率高
22.4 節點記憶體使用率高
22.5 Slow Logs
22.6 分析工具
22.6.1 I/O信息
22.6.2 記憶體
22.6.3 CPU信息
22.6.4 網路連線和流量
22.7 小結
附錄A 重大版本變化
前言
我們可以在不關心原理的情況下使用Elasticsearch(以下簡稱ES),但要想用好ES,就必須熟知其內部原理。
為什麼要閱讀代碼?在傳統軟體行業,技術文檔非常豐富。當開展一個項目時,從需求分析,到概要設計、詳細設計,每個步驟都有相應的文檔,從項目的整體架構、技術方案選型,到流程圖、類圖,細化到每個接口及參數。在這種情況下,想要搞清楚系統原理,並不需要閱讀代碼,文檔上什麼都有。但是網際網路產品疊代快,技術文檔不全,想要搞清楚原理,只能閱讀代碼,相當於從代碼中逆向理解設計思想。
通過分析源碼,我們可以有以下收穫:
理解設計思想 當我們面臨要解決的問題或實現的目標時,往往有多種方案可以選擇。無論表面上看起來多么簡單的架構,其背後都經過了深思熟慮。思考一下為什麼使用現在的方案?有沒有更好的解決方案?
探究內部機制的原理 某個技術點是怎么實現的?
搞明白執行流程 某個過程是什麼樣的,都做了什麼?有幾步?先做什麼,後做什麼?
熟悉代碼結構 如果需要進行二次開發,則給出代碼入口和調用關係,有時候找到某個邏輯的代碼實現要花很多時間。
學以致用 借鑑其設計理念,掌握其解決問題的方式和方法,將來面對類似的問題時可以參考。
本書結構
本書由四部分組成,第一部分為基礎知識和環境準備(第1~2章);第二部分介紹ES的主要流程(第3~10章),包括集群啟動流程、節點啟動/關閉流程、選主流程、讀寫流程、搜尋流程和索引恢複流程;第三部分主要介紹重要內部模組(第11~17章),包括gateway模組、allocation模組、Snapshot模組、Cluster模組、Transport模組和ThreadPool模組等;第四部分介紹最佳化和診斷方法(第18~22章),包括寫入速度最佳化、搜尋速度最佳化、磁碟使用量最佳化,以及在生產環境中的實際套用建議,第22章介紹常用的問題診斷方法,排查集群遇到的問題。
術語約定
ES中有一些特有的概念,這些概念對應的中文翻譯約定如下:
分片(shard);
主分片(primary shard),簡稱P;
分片副本(特指數據的一個分片,無論主分片,還是副分片);
副分片(replica shard),簡稱R;
分片分配(shard allocation);
集群狀態(cluster state);
分配決策(allocation decision);
分配感知(allocation awareness);
分配標識(allocation IDs);
追蹤(tracking);
事務日誌(translog);
同步集合(in-sync set)。
行文約定
雖然本書是一本源碼分析類圖書,但原則上儘量少貼代碼,引用的代碼只是為了說明原理,因此所引用的代碼並不保證和源碼完全一致,對非核心邏輯有所刪減,同時在代碼塊中,函式參數可能被省略,省略的函式參數用“…”表示,如:
executeBulk(...);
在引用代碼中的某個方法時,使用#號分隔類名與方法名:
類名#方法名
一個索引由許多分片組成。我們用如下方式表示索引website的第0個分片:
website[0]
致謝
感謝李欣傑和郭東東,他們帶我走進搜尋領域;感謝韓洪偉,他讓我學到了很多搜尋系統的知識。欣傑和老韓都是資深的搜尋架構師,能夠和優秀的團隊共事是我的榮幸。感謝ES團隊的同事段軍義,我們互相學習,一起解決了很多麻煩的問題。感謝出版社的策劃編輯陳曉猛先生,他為本書的寫作提供了很多建設性意見,並且耐心地編校了本書,讓本書得以順利出版。
感謝我的妻子和三歲的女兒,我愛你們!
張超