開發自己的搜尋引擎

編輯推薦

Google技術經理車東推薦

國內第一本詳細介紹搜尋引擎開發過程的圖書

採用最新的Lucene 2.0

配有一個完整搜尋引擎案例，市場價值30000元以上

網際網路搜尋的使用水平可以反映全民的信息處理能力，幾年前有研究發現美國用戶比歐洲用戶的網際網路使用水平領先半年左右，主要是根據誰搜尋時平均使用的關鍵字的個數多。中文用戶的搜尋使用水平相對於西文用戶目前仍然處於比較初級的階段，而中文網站搜尋功能的缺失也是一個重要的因素。

網站擁有了較多內容後，最先會考慮基於目錄的內容分類，以解決信息快速定位的問題，隨著內容量的進一步增加，很多內容在發表之後就很快被湮沒，成為“信息孤島”，而不斷加深的目錄結構也會讓用戶逐漸失去耐心，這時，關鍵字檢索的優勢就體現出來了：

關鍵字檢索可以讓處於“信息孤島”狀態的內容以一種更直接的方法提供給用戶；

和基於目錄/分類的樹形結構不同，基於關鍵字檢索還可以讓內容之間實現網狀的關聯結構，從而大大提高信息的引用密度。

基於傳統資料庫的關鍵字檢索由於性能問題讓很多網站放棄了搜尋功能，問題的解決歸根結底還是需要一個全文引擎。而Lucene開源引擎的出現讓這種原來被少數公司掌握的技術得到了迅速的普及，這裡應該再次感謝引擎的核心貢獻者Doug Cutting先生，同時也希望有更多的中文開發人員能積極投入到Lucene的相關項目開發中去，尤其在中文和其他亞洲雙位元組語言處理方面的問題。

Lucene也是我學習的第一個Java程式，當初是通過jdb一行行dubug了解其中的原理和機制的，非常高興有這樣一本專門的參考書出現，它無疑會為開發人員了解並更快掌握全文檢索技術節省大量的時間。

國內資深搜尋引擎開發專家車東

內容簡介

該書是一本介紹如何使用Lucene 2.0和Heritrix來構建搜尋引擎的書。通過對相關API和原始碼的分析，力求使讀者在掌握套用的基礎上能夠深入其核心，自行擴展和開發相應組件，開發出更有創意的搜尋引擎產品。

本書適合從事計算機軟體開發的人員閱讀，同時也可以作為搜尋引擎愛好者的入門書籍。閱讀本書需要具備Java語言基礎。

作者簡介

邱哲，北京理工大學碩士，現為某公司技術經理，主要從事歐美軟體外包開發。在J2EE方面有4年的開發經驗，在搜尋引擎與“爬蟲”方面有3年的開發經驗，著有《征服Ajax+Lucene構建搜尋引擎》一書。

圖書目錄

第一篇　搜尋引擎入門

第1章　搜尋引擎與信息檢索基礎

開發自己的搜尋引擎

基本介紹

編輯推薦

內容簡介

作者簡介

圖書目錄

相關詞條

熱門詞條