解密搜尋引擎技術實戰——Lucene&Java精華版（第3版）

內容簡介

　本書是獵兔搜尋開發團隊的軟體研發和教學實踐的經驗匯總。本書總結搜尋引擎相關理論與實際解決方案，並給出了Java實現，其中利用了流行的開源項目Lucene和Solr，而且還包括原創的實現。

　　本書主要包括總體介紹部分、爬虫部分、自然語言處理部分、全文檢索部分以及相關案例分析。爬虫部分介紹了網頁遍歷方法和如何實現增量抓取，並介紹了從網頁等各種格式的文檔中提取主要內容的方法。自然語言處理部分從統計機器學習的原理出發，包括了中文分詞與詞性標註的理論與實現及在搜尋引擎中的套用等細節，同時對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領域的經典問題進行了深入淺出的介紹，並總結了實現方法。在全文檢索部分，結合Lucene介紹了搜尋引擎的原理與進展。用簡單的例子介紹了Lucene的*新套用方法，包括完整的搜尋實現過程：從完成索引到搜尋用戶界面的實現。此外還進一步介紹了實現準實時搜尋的方法，展示了Solr的用法以及實現分散式搜尋服務集群的方法。*後介紹了在地理信息系統領域和戶外活動搜尋領域的套用。

圖書目錄

第1章搜尋引擎總體結構 1

1．1 搜尋引擎基本模組 1

1．2 開發環境 2

1．3 搜尋引擎工作原理 3

1．3．1 網路爬蟲 4

1．3．2 全文索引結構與Lucene實現 4

1．3．3 搜尋用戶界面 7

1．3．4 計算框架 8

1．3．5 文本挖掘 9

1．4 本章小結 9

第2章網路爬蟲的原理與套用 11

2．1 爬蟲的基本原理 11

2．2 爬蟲架構 14

2．2．1 基本架構 14

2．2．2 分散式爬蟲架構 16

2．2．3 垂直爬蟲架構 17

2．3 抓取網頁 18

2．3．1 下載網頁的基本方法 19

2．3．2 網頁更新 23

2．3．3 抓取限制應對方法 25

2．3．4 URL地址提取 28

2．3．5 抓取JavaScript動態頁面 28

2．3．6 抓取即時信息 31

2．3．7 抓取暗網 32

2．3．8 信息過濾 33

2．3．9 最好優先遍歷 39

2．4 存儲URL地址 40

2．4．1 BerkeleyDB 40

2．4．2 布隆過濾器 42

2．5 並行抓取 45

2．5．1 多執行緒爬蟲 46

2．5．2 垂直搜尋的多執行緒爬蟲 48

2．5．3 異步I/O 49

2．6 RSS抓取 53

2．7 抓取FTP 55

2．8 下載圖片 55

2．9 圖像的OCR識別 56

解密搜尋引擎技術實戰——Lucene&Java精華版（第3版）

基本介紹

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條