《Elasticsearch大數據搜尋引擎》是2018年電子工業出版社出版的圖書,作者是羅剛。
基本介紹
- 書名:Elasticsearch大數據搜尋引擎
- 作者:羅剛
- ISBN:9787121332333
- 類別:人工智慧
- 頁數:228
- 出版時間:2018年1月
出版信息,內容簡介,目錄,
出版信息
Elasticsearch大數據搜尋引擎
叢書名 :人工智慧系列
作 譯 者:羅剛
出版時間:2018年1月
作 譯 者:羅剛
出版時間:2018年1月
千 字 數:364
版 次:01-01頁 數:228
開 本:16開
裝 幀:
I S B N :9787121332333
版 次:01-01頁 數:228
開 本:16開
裝 幀:
I S B N :9787121332333
內容簡介
Elasticsearch搜尋集群系統在生產和生活中發揮著越來越重要的作用。本書介紹了Elasticsearch的使用、原理、系統最佳化與擴展套用。本書用例子說明了Java、Python、Scala和PHP的編程API,其中在Java搜尋界面實現上,介紹了使用Spring實現微服務開發。為了擴展Elasticsearch的功能,本書以中文分詞和英文文本分析為例介紹了外掛程式開發方法。本書介紹了使用Elasticsearch作為數據管理平台的日誌監控與分析方法,介紹了使用OCR從圖像中提取文本以及問答式搜尋的開發方法。
目錄
第1章 使用Elasticsearch 1
1.1 基本概念 1
1.2 安裝 2
1.3 搜尋集群 5
1.4 創建索引 6
1.5 使用Java客戶端接口 9
1.5.1 創建索引 11
1.5.2 增加、刪除與修改數據 14
1.5.3 分析器 16
1.5.4 數據導入 17
1.5.5 通過攝取快速導入數據 17
1.5.6 索引庫結構 17
1.5.7 查詢 18
1.5.8 區間查詢 22
1.5.9 排序 23
1.5.10 分散式搜尋 23
1.5.11 過濾器 24
1.5.12 高亮顯示 24
1.5.13 分頁 25
1.5.14 通過聚合實現分組查詢 26
1.5.15 文本列的聚合 27
1.5.16 遍歷數據 28
1.5.17 索引文檔 29
1.5.18 Percolate 29
1.6 RESTClient 30
1.6.1 使用攝取 31
1.6.2 代碼實現攝取 33
1.7 使用Jest 33
1.8 Python客戶端 37
1.9 Scala客戶端 40
1.10 PHP客戶端 43
1.11 SQL支持 44
1.12 本章小結 48
第2章 開發外掛程式 49
2.1 搜尋中文 49
2.1.1 中文分詞原理 49
2.1.2 中文分詞外掛程式原理 51
2.1.3 開發中文分詞外掛程式 53
2.1.4 中文AnalyzerProvider 55
2.1.5 字詞混合索引 57
2.2 搜尋英文 60
2.2.1 句子切分 60
2.2.2 標註詞性 62
2.3 使用測試套件 64
2.4 本章小結 68
第3章 管理搜尋集群 69
3.1 節點類型 69
3.2 管理集群 69
3.3 寫入許可權控制 70
3.4 使用X-Pack 71
3.5 快照 72
3.6 Zen發現機制 73
3.7 聯合搜尋 74
3.8 快取 74
3.9 本章小結 75
第4章 源碼分析 76
4.1 Lucene源碼分析 76
4.1.1 Ivy管理依賴項 76
4.1.2 源碼結構介紹 76
4.2 Gradle 77
4.3 Guice 77
4.4 Joda-Time 79
4.5 Transport 80
4.6 執行緒池 80
4.7 模組 80
4.8 Netty 81
4.9 分散式 81
4.10 本章小結 82
第5章 搜尋相關性 83
5.1 BM25檢索模型 83
5.1.1 使用BM25檢索模型 86
5.1.2 參數調優 86
5.2 學習評分 86
5.2.1 基本原理 87
5.2.2 準備數據 87
5.2.3 Elasticsearch學習排名 89
5.3 本章小結 91
第6章 搜尋引擎用戶界面 92
6.1 JSP實現搜尋界面 92
6.1.1 用於顯示搜尋結果的自定義標籤 93
6.1.2 使用Listlib 98
6.1.3 實現翻頁 100
6.2 使用Spring實現的搜尋界面 102
6.2.1 實現REST搜尋界面 102
6.2.2 REST API中的HTTP PUT 104
6.2.3 Spring-data-elasticsearch 106
6.2.4 Spring HATEOAS 112
6.3 實現搜尋接口 113
6.3.1 編碼識別 113
6.3.2 布爾搜尋 116
6.3.3 搜尋結果排序 116
6.4 實現相似文檔搜尋 117
6.5 實現AJAX搜尋聯想詞 119
6.5.1 估計查詢詞的文檔頻率 119
6.5.2 搜尋聯想詞總體結構 119
6.5.3 伺服器端處理 120
6.5.4 瀏覽器端處理 125
6.5.5 拼音提示 127
6.5.6 部署總結 127
6.5.7 Suggester 128
6.6 推薦搜尋詞 129
6.6.1 挖掘相關搜尋詞 130
6.6.2 使用多執行緒計算相關搜尋詞 132
6.7 查詢意圖理解 133
6.7.1 拼音搜尋 133
6.7.2 無結果處理 133
6.8 集成其他功能 134
6.8.1 拼寫檢查 134
6.8.2 分類統計 135
6.8.3 相關搜尋 141
6.8.4 再次查找 144
6.8.5 搜尋日誌 144
6.9 查詢分析 146
6.9.1 歷史搜尋詞記錄 146
6.9.2 日誌信息過濾 147
6.9.3 信息統計 148
6.9.4 挖掘日誌信息 150
6.9.5 查詢詞意圖分析 150
6.10 部署網站 150
6.10.1 部署到Web伺服器 151
6.10.2 防止攻擊 152
6.11 本章小結 156
第7章 OCR文字識別 157
7.1 Tesseract 157
7.2 使用TensorFlow識別文字 161
7.3 OpenCV 164
7.3.1 預處理 166
7.3.2 文字區域提取 169
7.3.3 糾正偏斜 171
7.3.4 Linux環境支持 172
7.4 JavaCV 172
7.5 本章小結 174
第8章 問答式搜尋 176
8.1 生成表示語義的代碼 176
8.2 信息整合 181
8.2.1 實體對齊 181
8.2.2 編輯距離 181
8.2.3 Jaro-Winkler距離 187
8.2.4 比較器 189
8.2.5 Cleaner 189
8.2.6 運行過程 190
8.2.7 遺傳算法調整參數 192
8.3 自動問答 193
8.3.1 問句處理器 193
8.3.2 自動發現答案 198
8.4 本章小結 199
第9章 Elastic系統監控 201
9.1 Logstash 201
9.1.1 使用Logstash 201
9.1.2 外掛程式 203
9.1.3 資料庫輸入外掛程式 206
9.2 Filebeat 207
9.3 訊息過期 208
9.4 Kibana 208
9.5 Flume 209
9.6 Kafka 210
9.7 Graylog 211
9.8 物聯網數據 215
9.9 本章小結 216