《開發自己的搜尋引擎--Lucene2.0+Heriterx》是2007年人民郵電出版社出版的圖書,作者是邱哲,符滔滔。
基本介紹
- 作者:邱哲 / 符滔滔
- ISBN:9787115160003
- 頁數:521 頁
- 定價:65.00元
- 出版社:人民郵電出版社
- 出版時間:2007-6
- 裝幀:平裝
內容簡介
第一本講解如何使用Lucene和Heritrix來構建搜尋引擎的書
一步一步帶領您親手構建企業級搜尋引擎網站
國內資深搜尋引擎開發專家車東推薦
配有一個完整的搜尋引擎案例。這個案例有很強的實用價值,只需稍加修改,就能套用於實際項目,市場價值在30000元以上!
Google技術經理車東推薦
國內第一本詳細介紹搜尋引擎開發過程的圖書
採用最新的Lucene 2.0
網際網路搜尋的使用水平可以反映全民的信息處理能力,幾年前有研究發現美國用戶比歐洲用戶的網際網路使用水平領先半年左右,主要是根據誰搜尋時平均使用的關鍵字的個數多。中文用戶的搜尋使用水平相對於西文用戶目前仍然處於比較初級的階段,而中文網站搜尋功能的缺失也是一個重要的因素。
網站擁有了較多內容後,最先會考慮基於目錄的內容分類,以解決信息快速定位的問題,隨著內容量的進一步增加,很多內容在發表之後就很快被湮沒,成為“信息孤島”,而不斷加深的目錄結構也會讓用戶逐漸失去耐心,這時,關鍵字檢索的優勢就體現出來了:
關鍵字檢索可以讓處於“信息孤島”狀態的內容以一種更直接的方法提供給用戶;
和基於目錄/分類的樹形結構不同,基於關鍵字檢索還可以讓內容之間實現網狀的關聯結構,從而大大提高信息的引用密度。
基於傳統資料庫的關鍵字檢索由於性能問題讓很多網站放棄了搜尋功能,問題的解決歸根結底還是需要一個全文引擎。而Lucene開源引擎的出現讓這種原來被少數公司掌握的技術得到了迅速的普及,這裡應該再次感謝引擎的核心貢獻者Doug Cutting先生,同時也希望有更多的中文開發人員能積極投入到Lucene的相關項目開發中去,尤其在中文和其他亞洲雙位元組語言處理方面的問題。
Lucene也是我學習的第一個Java程式,當初是通過jdb一行行dubug了解其中的原理和機制的,非常高興有這樣一本專門的參考書出現,它無疑會為開發人員了解並更快掌握全文檢索技術節省大量的時間。
國內資深搜尋引擎開發專家 車東
《開發自己的搜尋引擎:Lucene 2.0+Heritrix》詳細介紹了如何套用Lucene進行搜尋引擎開發,通過學習《開發自己的搜尋引擎:Lucene 2.0+Heritrix》,讀者可以完成構建一個企業級的搜尋引擎網站。
《開發自己的搜尋引擎:Lucene 2.0+Heritrix》是國內第一本使用Lucene和Heritrix來講解搜尋引擎構建的書,通過詳細的對API和原始碼的分析,力求使讀者在套用的基礎上,能夠深入其核心,自行擴展和開發相應組件,發揮想像力,開發出更具有創意的搜尋引擎產品。《開發自己的搜尋引擎:Lucene 2.0+Heritrix》適合Java程式設計師和從事計算機軟體開發的其他編程人員閱讀,同時也可以作為搜尋引擎愛好者的入門書籍。
由於目前市面上從技術層面介紹搜尋引擎的書並不多,即使有,也大多停留在理論階段,而非搜尋引擎的開發過程。因此,可以說《開發自己的搜尋引擎:Lucene 2.0+Heritrix》是國內第一本詳細介紹搜尋引擎開發過程的圖書。
(1)採用最新的Lucene 2.0。以前大家用的1.4.3版本,而最新的Lucene 2.0重寫了很多API,內部的實現方法也有了很大最佳化。《開發自己的搜尋引擎:Lucene 2.0+Heritrix》的代碼都是在2.0版本下調試通過的,這樣可以幫助讀者了解Lucene的更多新功能。
(2)配有一個完整的搜尋引擎案例。這個案例有很強的實用價值,只需稍加修改,就能套用於實際項目,市場價值在30000元以上!
(3)著重解決開發人員頭痛的問題。《開發自己的搜尋引擎:Lucene 2.0+Heritrix》的目的是指導項目實踐,因此沒有羅列各個API的用法,而是對常見的開發問題進行深入探討,比如《開發自己的搜尋引擎:Lucene 2.0+Heritrix》的第7章,是專門為解決“Word,Excel和PDF檔案如何解析”這個問題而設定的。
(4)內容新穎,前衛實用。《開發自己的搜尋引擎:Lucene 2.0+Heritrix》介紹了Compass、Heritrix、DWR和HTMLParser等內容。在搜尋引擎開發的過程中,這些均為相當重要且實用的技術,筆者經過自身實踐將它們展現給讀者,希望能讓讀者在學習Lucene的同時開拓視野。