nutch

簡介

Nutch 是一個開源Java 實現的搜尋引擎。它提供了我們運行自己的搜尋引擎所需的全部工具。包括全文搜尋和Web爬蟲。

儘管Web搜尋是漫遊Internet的基本要求, 但是現有web搜尋引擎的數目卻在下降. 並且這很有可能進一步演變成為一個公司壟斷了幾乎所有的web搜尋為其謀取商業利益.這顯然不利於廣大Internet用戶.

Nutch為我們提供了這樣一個不同的選擇. 相對於那些商用的搜尋引擎, Nutch作為開放原始碼搜尋引擎將會更加透明, 從而更值得大家信賴. 現在所有主要的搜尋引擎都採用私有的排序算法, 而不會解釋為什麼一個網頁會排在一個特定的位置. 除此之外, 有的搜尋引擎依照網站所付的費用, 而不是根據它們本身的價值進行排序. 與它們不同, Nutch沒有什麼需要隱瞞, 也沒有動機去扭曲搜尋的結果. Nutch將儘自己最大的努力為用戶提供最好的搜尋結果.

Nutch目前最新的版本為version v2.3。

目標

Nutch 致力於讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜尋引擎. 為了完成這一宏偉的目標, Nutch必須能夠做到:

* 每個月取幾十億網頁

* 為這些網頁維護一個索引

* 對索引檔案進行每秒上千次的搜尋

* 提供高質量的搜尋結果

組成

爬蟲crawler和查詢searcher。Crawler主要用於從網路上抓取網頁並為這些網頁建立索引。Searcher主要利用這些索引檢索用戶的查找關鍵字來產生查找結果。兩者之間的接口是索引，所以除去索引部分，兩者之間的耦合度很低。

Crawler和Searcher兩部分儘量分開的目的主要是為了使兩部分可以分散式配置在硬體平台上，例如將Crawler和Searcher分別放在兩個主機上，這樣可以提升性能。

爬蟲

Crawler的重點在兩個方面，Crawler的工作流程和涉及的數據檔案的格式和含義。數據檔案主要包括三類，分別是web database，一系列的segment加上index，三者的物理檔案分別存儲在爬行結果目錄下的db目錄下webdb子資料夾內，segments資料夾和index資料夾。那么三者分別存儲的信息是什麼呢？

一次爬行會產生很多個segment，每個segment記憶體儲的是爬蟲Crawler在單獨一次抓取循環中抓到的網頁以及這些網頁的索引。Crawler爬行時會根據WebDB中的link關係按照一定的爬行策略生成每次抓取循環所需的fetchlist，然後Fetcher通過fetchlist中的URLs抓取這些網頁並索引，然後將其存入segment。Segment是有時限的，當這些網頁被Crawler重新抓取後，先前抓取產生的segment就作廢了。在存儲中。Segment資料夾是以產生時間命名的，方便我們刪除作廢的segments以節省存儲空間。

Index是Crawler抓取的所有網頁的索引，它是通過對所有單個segment中的索引進行合併處理所得的。Nutch利用Lucene技術進行索引，所以Lucene中對索引進行操作的接口對Nutch中的index同樣有效。但是需要注意的是，Lucene中的segment和Nutch中的不同，Lucene中的segment是索引index的一部分，但是Nutch中的segment只是WebDB中各個部分網頁的內容和索引，最後通過其生成的index跟這些segment已經毫無關係了。

nutch

基本介紹

簡介

目標

爬蟲

工作流程

相關詞條

熱門詞條