搜尋引擎零距離:基於Ruby+Java搜尋引擎原理與實現

搜尋引擎零距離:基於Ruby+Java搜尋引擎原理與實現

《搜尋引擎零距離:基於Ruby+Java搜尋引擎原理與實現》是2009年清華大學出版社出版的圖書,作者是王亮。

基本介紹

  • 書名:搜尋引擎零距離:基於Ruby+Java搜尋引擎原理與實現
  • 作者: 王亮
  • ISBN:9787302201472
  • 頁數:394
  • 出版社:清華大學出版社
  • 出版時間:2009 年6月
  • 開本:16開
內容簡介,目錄,

內容簡介

隨著網路信息資源的急劇增長,人們越來越多地關注如何快速有效地從海量的網路信息中,抽取出潛在的、有價值的信息,使之有效地在管理和決策中發揮作用。搜尋引擎技術解決了用戶檢索網路信息的困難,目前搜尋引擎技術正成為計算機科學界和信息產業界爭相研究、開發的對象。.
本書的作者是一位資深的搜尋引擎開發人員,書中對數據獲取(網路信息挖掘)與數據檢索(搜尋引擎)兩個方面作了深入的介紹。本書首先提出了一套“網路數據挖掘”的完整理論,並給出一個實際的智慧型爬蟲系統,通過理論與實際的完整呈現,使讀者能夠對“網路數據挖掘”有一個比較具體的認識,然後介紹了一個專用程式語言irs,並給出了這個語言的編譯器以及虛擬機的實現方法。本書還通過對多個開源搜尋引擎項目抽絲剝繭的細緻分析,引出搜尋引擎的一些基本原理與開發方法,並介紹了一個商業化搜尋引擎的實例。本書的最後還結合一個java框架介紹了一些軟體設計思想。..
本書涉及網路數據挖掘、搜尋引擎原理、編譯原理、資料庫原理、正則表達式、軟體工程、設計模式、ruby語言、http協定等計算機科學與技術的知識,適合搜尋引擎開發人員作為參考,也適合有一定計算機基礎的讀者閱讀,以擴展視野。
本書的內容中,既有教科書式的理論闡述,也有“七天入門”式的實例解析,還有《linux核心情景分析》風格的細緻的代碼分析,甚至還有一些英語文獻翻譯,從初學者到有一定經驗的搜尋引擎開發人員,各個層次的讀者都能找到一些適合自己閱讀的章節。...

目錄

第1章 網頁數據挖掘. 1
1.1 網頁數據挖掘定義 1
1.2 web數據挖掘面臨的問題 1
1.3 web數據挖掘的分類 1
1.4 網頁數據的結構與特點 3
1.4.1 html超文本標記語言 3
1.4.2 wml 無線標記語言 4
1.5 網頁數據挖掘的基本方法 6
1.5.1 預備知識 7
1.5.2 變數模板匹配方法 8
1.5.3 樹節點直接標識方法 10
1.5.4 語義規則識別方法 13
第2章 智慧型網路爬蟲 14
2.1 智慧型網路爬蟲的定義與特點 14
2.2 抓取入口定義 14
2.3 次級頁面自動發現 14
2.4 次級頁面地址拼接 16
2.5 已爬地址處理 17
2.6 信息採集強度控制 19
2.7 模擬用戶登錄 19
.2.8 驗證碼識別 20
2.9 代理伺服器設定 20
2.10 javascript解析控制 21
第3章 網頁信息挖掘專用程式設計語言irs 23
3.1 irs語言的簡介與設計原則 23
3.2 irs腳本語法結構 23
3.2.1 頁面配置塊 23
3.2.2 頁面名語句 23
3.2.3 爬蟲配置聲明語句 24
3.2.4 入口聲明語句 24
3.2.5 編碼配置 26
3.2.6 步長配置 26
3.2.7 重試次數配置 27
3.2.8 正則模式匹配語句 27
3.2.9 匹配名聲明 28
3.2.10 iee表達式 28
3.2.11 模式匹配修飾符 29
3.2.12 節點模式匹配語句 32
3.2.13 次級頁面入口語句.. 33
3.2.14 保存語句 35
3.2.15 ruby控制語句 35
3.2.16 爬蟲配置語句 37
3.2.17 系統配置語句 37
3.2.18 外部配置檔案 38
3.2.19 執行語句塊 39
3.2.20 irql存儲語句 40
3.2.21 irql語言中的 數據表 44
3.2.22 irql內部函式 49
3.2.23 實例解析 55
第4章 irs虛擬機及編譯器實現原理 69
4.1 ruby基本語法 70
4.1.1 字句構造和表達式 70
4.1.2 字面值 71
4.1.3 控制結構 74
4.1.4 類和方法的定義 80
4.1.5 運算符表達式 84
4.1.6 變數和常量 89
4.1.7 方法調用 91
4.2 java與jruby的整合 93
4.2.1 java中的ruby運行庫環境 93
4.2.2 irsreflectioncallback類實現 94
4.2.3 在java中編譯執行ruby腳本 99
4.2.4 java內嵌ruby
方法總結 100
4.3 詞法分析和語法分析 101
4.3.1 定義與簡介 101
4.3.2 sablecc 103
4.4 irs語言的語義分析 137
4.5 irvm虛擬機主類 146
4.5.1 generateentrance() 147
4.5.2 getcontent() 149
4.5.3 match() 160
4.5.4 save() 174
4.5.5 compileandrun() 198
第5章 搜尋引擎設計原理 200
5.1 概述 200
5.2 lucene搜尋引擎的原理 205
5.2.1 工作方式 205
5.2.2 基本概念 206
5.2.3 包結構 207
5.2.4 索引操作 208
5.2.5 搜尋 210
5.2.6 分析器 214
5.2.7 性能最佳化 215
5.2.8 並行集群 216
5.3 hadoop搜尋引擎的原理 220
5.3.1 組成結構 220
5.3.2 開發與使用 222
5.4 nutch搜尋引擎的原理 226
5.4.1 簡介 226
5.4.2 外掛程式體系 226
5.4.3 數據獲取與分析 228
5.5 compass搜尋引擎的原理 264
5.5.1 功能增強 264
5.5.2 api簡化 265
5.5.3 編程方式 265
5.6 solr搜尋引擎的原理 266
5.6.1 概述 266
5.6.2 使用solr 269
第6章 搜尋引擎的商業化實現 275
6.1 索引 275
6.1.1 solr實現 275
6.1.2 myse實現 279
6.1.3 總結 317
6.2 查詢 317
6.2.1 solr實現 317
6.2.2 myse實現 318
6.2.3 總結 358
第7章 hivemind 359
7.1 模組(modules) 359
7.2 子模組與依賴性(sub modules & dependency) 360
7.3 服務點(servicepoints) 361
7.4 攔截器(interceptor) 362
7.5 配置點(configurationpoints) 363
7.6 符號資源(symbolsources) 364
7.7 轉換器(translators) 365
7.8 對象提供器(objectproviders) 368
7.9 服務模型(servicemodels) 370
7.10 啟動&預載入 (startup & eagerload) 373
7.11 服務構造器 376
後記與感謝... 393

相關詞條

熱門詞條

聯絡我們