lucene分析與套用

內容簡介

本書介紹Lucene工作原理及套用。

本書通過對Lucene原始碼的解說、輔以圖表，並用一些具體實例把所有原始碼進行組織與剖析，完整地展示 Lucene從建立索引到查詢的過程。並通過介紹Lucene的套用，分享Lucene具體項目開發的套用環境。最後簡單地介紹了Nutch和Hadoop。本書適用於搜尋引擎技術人員、Lucene愛好者、對搜尋引擎核心與運行機制感興趣的讀者。

前言

Google被人熟知，Baidu在中國成功推廣，搜尋吸引著IT界的眼球，也吸引了更多開發者的好奇心。於是誕生了Lucene，一個開源的全文檢索API。並在Lucene的基礎上，衍生出了一個全文檢索引擎（Nutch）和分散式檔案系統（Hadoop）。

大家一定很好奇，Google的搜尋引擎是如何工作的？採用什麼樣的檔案系統？……等等。但是我們無法得知。Lucene與其相關的項目Nutch和Hadoop彌補了這個不足。讓我們有機會了解到搜尋引擎、分散式檔案系統的內部工作原理。

如果介紹一個軟體或者一套框架如何使用，是比較容易說清楚的。但是要描述一個軟體原始碼，卻不容易。老吳與家立在寫作期間，輾轉難眠，不知道如何表述才能夠準確的把Lucene的設計精髓展現給讀者，於是通過對Lucene原始碼的解說、輔以圖表，並通過一些具體實例把所有原始碼的進行組織與剖析，完整的展示 Lucene從建立索引到查詢的完整過程。並通過介紹一些Lucene的套用，和讀者分享Lucene在具體項目開發正的套用環境。同時，插入一些Lucene開發實例，拋磚引玉，試圖讓讀者也能親自體會Lucene本身的強大功能。最後，為了進一步說明Lucene的套用環境，簡單的介紹了Nutch和Hadoop。

老吳很早開始研讀Lucene的原始碼，並閱讀了Dong Cutting的相關論文，對Lucene的核心具有深刻的認識。家立想讓大家分享他和老吳的研究成果，於是決定把它寫出來，家立負責lucene多處套用部分的寫作。倆個人都沒有寫書的經驗。在此之前，總覺得寫書是一件很容易的事情，經歷過才知道，寫書的壓力和工作量，遠遠超過開發一個項目。寫書，重要的不僅僅要把自己把所寫的內容搞懂，而且更重要的是需要讓讀者能夠容易看懂。Lucene是一個很活躍的開源項目，因為老吳研究得比較早，版本以1.4.3為主。為了能夠跟上Lucene的步伐，家立推薦採用了較新的1.9-2.1版本進行分析。但是該版本的核心變化比較大，因此需要重新分析、調試、總結。為了儘快完成，日日熬夜，真所謂痛並快樂著。這裡非常感謝家人的支持，朋友的鼓勵。

希望對搜尋引擎核心與運行機制感興趣的朋友閱讀此書，由於時間倉促，難免有錯，請讀者批評指正。

lucene分析與套用

基本介紹

內容簡介

前言

目錄

相關詞條

熱門詞條