內容簡介
這本書基於Lucene的當前最新版本(2.1)精解了Lucene搜尋引擎的相關知識,從基礎知識到套用開發,精練簡潔,恰到好處
本書共包括16章,分為6部分。第1部分Lucene基礎。介紹了Lucene的基礎知識,包括Lucene的歷史和發展情況、使用Lucene創建索引和執行搜尋的基本方法以及中文分詞的套用,最後做了兩個套用項目。第2部分:數據解析。介紹解析不同格式數據(如Word、PDF等)的方法,包括常用的數據解析組件、Lucene自身的數據解析機制和Lius類庫。第3部分:索引的高級知識。介紹了 Lucene建立索引的過程,索引的查看和刪除,索引的同步,索引的合併和最佳化等內容。第4部分:搜尋的高級知識。介紹使用不同的Query對象構建搜尋請求,使用QueryParser解析用戶的搜尋請求,搜尋結果的過濾和排序等內容。第5部分:Lucene套用實例。套用本節介紹的所有知識構建一個桌面搜尋引擎和一個Web搜尋引擎。這部分作為對前面所有內容的總結。第6部分:Nutch搜尋引擎框架。介紹了基於Lucene的完整搜尋引擎Nutch。
基本介紹
作者簡介,目錄,
作者簡介
於天恩,現任某大型軟體開發公司技術總監,高級軟體工程師,精通主流軟體編程技術(100多種),具有大量軟體項目開發經驗。主持開發過大中型企業網站,簡訊服務系統,辦公自動化系統(OA),CRM系統等。
已經出版的作品:《PHP精解案例教程》、《做自己的搜尋引擎——搜尋引擎精解案例教程》、《迅速搭建全文搜尋平台——開源搜尋引擎實戰教程》。
目錄
第1部分 Lucene基礎(第1~5章)
第1章 Lucene簡介
1.1 認識Lucene
1.1.1 Lucene是什麼
1.1.2 Lucene的作者
1.1.3 Lucene的歷史
1.l.4 Lucene的現在
1.2 Lucene體驗實例
1.2.1 下載Lucene
1.2.2 編寫輔助糞
1.2.3 最簡單的搜尋引擎
1.2.4 索引器的開發
1.2.5 索引器的運行
1.2.6 搜尋器的開發
1.2.7 搜尋器的運行
小結
第2章 創建索引
2.1 創建索引的基本方式
2.1.1 理解創建索引的過程
2.1.2 創建Field
2.1.3 創建Document
2.1.4 創建Index Writer
2.2 創建索引實例
2.2.1 簡單索引
2.2.2 複雜一點的索引
2.2.3 為檔案創建索引
2.2.4 為某一目錄下的所有檔案創建索引
小結
第3章 執行搜尋
3.1 執行搜尋的基本方式
3.1.1 創建搜尋器對象:IndexSearcher
3.1.2 封裝搜尋條件:使用Term和Query對象
3.1.3 執行搜尋
3.1.4 提取搜尋結果:了解Hits對象
3.1.5 提取搜尋結果:了解Document對象
3.1.6 提取搜尋結果了解Field對象
3.2 執行搜尋實例
3.2.1 簡單搜尋
3.2.2 分詞問題
小結
第4章 中文分詞
4.1 說說分詞
4.1.1 分詞的方法
4.1.2 做分詞器
4.2 Lucene的分詞器
4.2.1 二分法分詞器
4.2.2 Lucene自帶的中文分詞器
4.2.3 NGram分詞器的原理和用法
4.2.4 JE分詞器的原理和用法
4.2.5 IK分詞器的原理和用法
4.2.6 其他分詞器
小結
……
第2部分 數據解析(第6~8章)
第3部分 索引的高級知識(第9~10章)
第4部分 搜尋的高級知識(第11~12章)
第5部分 lucene套用實例(第13~14章)
第6部分 Nutch搜尋引擎框架(第15~16章)