搜尋引擎技術與發展

搜尋引擎技術與發展

《搜尋引擎技術與發展》是2020年電子工業出版社出版的圖書,作者是羅剛。

基本介紹

  • 中文名:搜尋引擎技術與發展
  • 作者:羅剛
  • 出版社:電子工業出版社
  • 出版時間:2020年
  • 頁數:268 頁
  • 定價:69 元 
  • 開本:16 開
  • ISBN:9787121398032
內容簡介,作者簡介,目 錄,

內容簡介

本書主要介紹如何使用Java語言開發搜尋引擎,包括搜尋引擎技術入門,使用Java開發網路爬蟲,實現從文檔中提取索引內容,中文分詞的原理與實現,在Linux伺服器端開發Solr套用,Spring Boot微服務框架實現的後端,以及React框架實現的前端等內容。 第1章主要介紹各種類型的搜尋引擎和開發搜尋引擎可以藉助的軟體工具;第2章主要介紹網路爬蟲開發和數據存儲;第3章主要介紹從HTML檔案中提取文本,以及從PDF、Word等非HTML檔案中提取文本;第4章主要介紹Lucene中的中文分析器的原理與實現;第5章主要介紹Solr索引庫的創建與維護,以及Solr的查詢解析器;第6章主要介紹Web方式搜尋結果界面的實現;第7章主要介紹如何使用SolrCloud實現分散式搜尋。

作者簡介

獵兔搜尋技術創始人曾經擔任國防大學科研處 技術顧問工信部 輿情開發顧問東南大學 社會導師首都師範大學 金融課程講師北京石油化工學院 社會導師北大光華管理學院 技術顧問藍汛公司搜尋集群技術諮詢顧問新東方 創新研究院 研究員

目 錄

第1章 遍歷搜尋引擎技術 1
1.1 快速上手搜尋引擎 1
1.1.1 準備工作環境 1
1.1.2 生成索引 3
1.1.3 關鍵字查詢 8
1.1.4 實現搜尋界面 10
1.2 搜尋語法 22
1.3 你也可以做搜尋引擎 24
1.4 搜尋引擎的基本技術 25
1.4.1 網路爬蟲 25
1.4.2 全文索引結構 26
1.4.3 Solr全文檢索引擎 27
1.4.4 Nutch網路搜尋軟體 27
1.4.5 用戶界面 28
1.5 商業搜尋引擎技術概述 29
1.5.1 通用搜尋 30
1.5.2 垂直搜尋 30
1.5.3 站內搜尋 31
1.6 本章小結 32
第2章 獲得海量數據 34
2.1 自己的網路爬蟲 34
2.1.1 使用URL訪問網路資源 34
2.1.2 重試 37
2.1.3 網路爬蟲的遍歷與實現 44
2.1.4 多執行緒爬蟲 48
2.1.5 Log4j2日誌 49
2.1.6 存儲URL地址 51
2.1.7 定向採集 57
2.1.8 暗網抓取 58
2.1.9 Selenium抓取動態頁面 59
2.1.10 圖片抓取 61
2.2 數據存儲 62
2.2.1 寫入檔案 63
2.2.2 Jdbi寫入資料庫 63
2.3 本地部署 66
2.4 本章小結 66
第3章 提取文檔中的文本內容 68
3.1 從HTML檔案中提取文本 68
3.1.1 使用HTMLParser實現定向抓取 71
3.1.2 結構化信息提取 80
3.1.3 網頁的DOM結構 83
3.1.4 網頁去噪 85
3.1.5 正文提取 87
3.2 從非HTML檔案中提取文本 92
3.2.1 PDF檔案 95
3.2.2 Word檔案 96
3.2.3 Rtf檔案 98
3.2.4 Excel檔案 98
3.2.5 PowerPoint檔案 99
3.2.6 從圖片中提取文本 100
3.3 流媒體內容提取 101
3.3.1 音頻流內容提取 101
3.3.2 視頻流內容提取 102
3.4 本章小結 103
第4章 中文分詞 104
4.1 Lucene中的中文分詞 104
4.2 中文分詞的原理 105
4.3 查找詞典算法 106
4.4 句子切分 112
4.5 有限狀態機識別未登錄串 113
4.6 機率分詞方法 117
4.7 N元分詞方法 125
4.7.1 二元詞典 125
4.7.2 二元分詞 135
4.7.3 開發中文分析器 139
4.8 新詞發現 150
4.9 命名實體識別 152
4.9.1 人名識別 152
4.9.2 組織機構名稱識別 160
4.9.3 化學物質識別 161
4.10 詞性標註 162
4.11 平滑算法 173
4.12 地名切分 176
4.13 本章小結 182
第5章 Solr伺服器端開發 183
5.1 在Linux作業系統中安裝Solr 183
5.2 創建和維護索引庫 186
5.3 索引本地硬碟上的檔案 191
5.4 使用Bean索引文檔 192
5.5 更新索引庫中的索引文檔 194
5.6 刪除數據 195
5.7 檢測索引 195
5.8 查詢解析器 196
5.9 本章小結 196
第6章 用戶界面的設計與實現 197
6.1 Solr搜尋接口(search代碼) 197
6.2 搜尋頁面設計 198
6.2.1 用於顯示搜尋結果的模板 200
6.2.2 搜尋結果分頁 202
6.2.3 測試搜尋結果頁 215
6.2.4 界面國際化 216
6.2.5 用於Solr的Spring Data 219
6.2.6 Spring-HATEOAS實現REST架構 221
6.3 實現搜尋接口 224
6.3.1 基本查詢 224
6.3.2 布爾搜尋 226
6.3.3 指定範圍搜尋 226
6.3.4 搜尋結果排序 227
6.4 實現聚合 228
6.5 實現相似文檔搜尋 234
6.6 實現自動完成 235
6.6.1 總體結構 236
6.6.2 伺服器端處理 236
6.6.3 自動完成客戶端 238
6.7 搜尋日誌 244
6.8 React框架 247
6.9 本章小結 251
第7章 Solr分散式搜尋 252
7.1 使用Solr實現分散式搜尋 252
7.1.1 使用SolrCloud 252
7.1.2 分片 254
7.1.3 管理集群 254
7.1.4 SolrCloud工作原理 255
7.1.5 ZooKeeper分散式協調器 256
7.2 Jenkins持續集成 258
7.3 本章小結 259
參考文獻 260

相關詞條

熱門詞條

聯絡我們