搜尋引擎開發權威經典

搜尋引擎開發權威經典

這《搜尋引擎開發權威經典》引基於Lucene的當前最新版本(2.1)精解了Lucene搜尋引擎的相關知識,從基礎知識到套用開發,精練簡潔,恰到好處

基本介紹

  • 書名:搜尋引擎開發權威經典
  • 作者:於天恩
  • ISBN:9787113092511
  • 出版社:中國鐵道出版社
  • 出版時間:2008年
  • 開本:16
圖書信息,內容簡介,目錄,作者簡介,

圖書信息

作者:於天恩
出版社:中國鐵道出版社
頁碼:629 頁
出版日期:2008年
ISBN:9787113092511
條形碼:9787113092511
版本:1版
裝幀:平裝
開本:16
中文:中文
附帶品描述:附光碟一張

內容簡介

《搜尋引擎開發權威經典》共包括16章,分為6部分。第1部分Lucene基礎。介紹了Lucene的基礎知識,包括Lucene的歷史和發展情況、使用Lucene創建索引和執行搜尋的基本方法以及中文分詞的套用,最後做了兩個套用項目。第2部分:數據解析。介紹解析不同格式數據(如Word、PDF等)的方法,包括常用的數據解析組件、Lucene自身的數據解析機制和Lius類庫。第3部分:索引的高級知識。介紹了 Lucene建立索引的過程,索引的查看和刪除,索引的同步,索引的合併和最佳化等內容。第4部分:搜尋的高級知識。介紹使用不同的Query對象構建搜尋請求,使用QueryParser解析用戶的搜尋請求,搜尋結果的過濾和排序等內容。第5部分:Lucene套用實例。套用本節介紹的所有知識構建一個桌面搜尋引擎和一個Web搜尋引擎。這部分作為對前面所有內容的總結。第6部分:Nutch搜尋引擎框架。介紹了基於Lucene的完整搜尋引擎Nutch。
《搜尋引擎開發權威經典》適合從Lucene初學者到高級開發人員之間的一切Lucene愛好者。

目錄

第1章 Lucene簡介
1.1 認識Lucene
1.1.1 Lucene是什麼
1.1.2 Lucene的作者
1.1.3 Lucene的歷史
1.1.4 Lucene的現在
1.2 Lucene體驗實例
1.2.1 下載Lucene
1.2.2 編寫輔助類
1.2.3 最簡單的搜尋引擎
1.2.4 索引器的開發
1.2.5 索引器的運行
1.2.6 搜尋器的開發
1.2.7 搜尋器的運行
小結
第2章 創建索引
2.1 創建索引的基本方式
2.1.1 理解創建索引的過程
2.1.2 創建Field
2.1.3 創建Document
2.1.4 創建IndexWriter
2.2 創建索引實例
2.2.1 簡單索引
2.2.2 複雜一點的索引
2.2.3 為檔案創建索引
2.2.4 為某一目錄下的所有檔案創建索引
小結
第3章 執行搜尋
3.1 執行搜尋的基本方式
3.1.1 創建搜尋器對象:Indexsearcher
3.1.2 封裝搜尋條件:使用Tem和Query對象
3.1.3 執行搜尋
3.1.4 提取搜尋結果:了解Hits對象
3.1.5 提取搜尋結果:了解Document對象
3.1.6 提取搜尋結果:了解Field對象
3.2 執行搜尋實例
3.2.1 簡單搜尋
3.2.2 分詞問題
小結
第4章 中文分詞
4.1 說說分詞
4.1.1 分詞的方法
4.1.2 做分詞器
4.2 Lucene的分詞器
4.2.1 二分法分詞器
4.2.2 Lucene自帶的中文分詞
4.2.3 NGram分詞器的原理和用法
4.2.4 JE分詞器的原理和用法
4.2.5 IK分詞器的原理和用法
4.2.6 其他分詞器
小結
第5章 Lucene搜尋引擎開發基礎實例
5.1 概述
5.2.1 索引器簡介
5.2.2 索引器設計
5.2.3 索引器實現
5.2.4 實例效果
5.3 桌面搜尋引擎:搜尋器
5.3.1 搜尋器簡介
5.3.2 搜尋器設計
5.3.3 搜尋器實現
5.3.4 實例效果
5.4 web搜尋引擎:搜尋器
5.4.1 搜尋器簡介
5.4.2 搜尋器界面
5.4.3 搜尋器實現
5.4.4 搜尋器部署
5.4.5 實例效果
小結
第6章 常用的數據解新組件
6.1 常見二進制文檔的解析
6.1.1 解析PDF文檔
6.1.2 解析Word文檔
6.1.3 解析Excel文檔
6.2 XML文檔的解析
6.2.1 使用DOM4J解析XML文檔
6.2.2  XML文檔標準解析器
6.3 HTML文檔的解析
6.3.1 下載HTMLParser組件
6.3.2 網頁編碼問題
6.3.3 網頁解析的一般方法
6.3.4 常見的解析要求
6.4 集成的數據解析器
6.4.1 文本檔案解析器
6.4.2 集成解析器
6.5 改良的搜尋引擎
6.5.1 改良的索引器
6.5.2 測試搜尋器
小結
第7章 Lucene自身的數據解新方
7.1 處理PDF文檔——LucenePDFDocument
7.2 處理純文本檔案——TextDocument
7.3 綜述
小結
第8章 Lius類庫
8.1 初識Lius
8.1.1 Lius簡介
8.1.2 Lius的功能
8.1.3 下載Lius
8.1.4 Lius的目錄結構
8.1.5 一個簡單的例子
8.2 藉助Lius解析普通數據
8.2.1 取我所需,為我所用
8.2.2 解析Word
8.2.3 解析Excel
8.2.4 解析PDF
8.2.5 解析PowerPoint
8.2.6 解析RTF
8.2.7 解析TXT
8.2.8 解析XMI
8.3 藉助Lius解析HTML數據
第3部分 索引的高級知識(第9~10章)
第4部分 搜尋的高級知識(第11~12章)
第5部分 Lucene套用實例(第13~14章)
第6部分 Nutch搜尋引擎框架(第15~16章)

作者簡介

於天恩,現任某大型軟體開發公司技術總監,高級軟體工程師,精通主流軟體編程技術(100多種),具有大量軟體項目開發經驗。主持開發過大中型企業網站,簡訊服務系統,辦公自動化系統(OA),CRM系統等。
已經出版的作品:《PHP精解案例教程》、《做自己的搜尋引擎——搜尋引擎精解案例教程》、《迅速搭建全文搜尋平台——開源搜尋引擎實戰教程》。

相關詞條

熱門詞條

聯絡我們