搜尋引擎技術與套用開發

搜尋引擎技術與套用開發

《搜尋引擎技術與套用開發》是清華大學出版社2020年出版圖書,作者李群、袁津生

基本介紹

  • 中文名:搜尋引擎技術與套用開發
  • 作者:李群、袁津生
  • 出版社清華大學出版社
  • 頁數:364 頁
  • ISBN:9787302560036
  • 開本:16 開
內容簡介,目錄,

內容簡介

本書從教學的角度出發,全面地闡述了搜尋引擎的原理和實踐,包括:搜尋引擎的基本原理與技術、搜尋引擎的數據結構和搜尋引擎的爬蟲、信息處理技術、信息檢索技術、信息檢索評價技術、多媒體信息檢索技術以及搜尋引擎開發技術。 在教材的編寫過程中,對基本概念、基礎知識的介紹力求做到簡明扼要;各章相互配合,又自成體系附有小結和習題,同時還有相關的實驗及套用技術。 本書適合高等院校計算機科學與技術專業及相關專業的高年級學生和研究生閱讀參考,也適合相關領域的工程技術人員參閱。

目錄

第1章搜尋引擎概述/1
1.1搜尋引擎的概念1
1.1.1搜尋引擎基本概念1
1.1.2搜尋引擎的原理2
1.2搜尋引擎的歷史與發展趨勢2
1.2.1搜尋引擎的發展史3
1.2.2搜尋引擎的發展趨勢7
1.3搜尋引擎的分類10
1.3.1全文搜尋引擎11
1.3.2目錄索引搜尋引擎11
1.3.3元搜尋引擎12
1.3.4分散式搜尋引擎13
1.4搜尋引擎的關鍵技術13
1.4.1信息收集和存儲技術13
1.4.2信息預處理技術13
1.4.3信息索引技術14
1.5主要搜尋引擎介紹15
1.5.1谷歌(Google)搜尋15
1.5.2雅虎(Yahoo!)搜尋19
1.5.3百度(Baidu)搜尋21
1.5.4360搜尋24
小結25
思考題26
第2章搜尋引擎基礎/28
2.1搜尋引擎的體系結構28
2.1.1搜尋器28
2.1.2索引器30
2.1.3檢索器31
2.1.4用戶接口31
2.2搜尋引擎的工作原理32
2.2.1網頁蒐集32
2.2.2網頁處理33
2.2.3查詢服務35
2.3搜尋引擎的數據結構36
2.3.1存儲結構36
2.3.2信息庫38
2.3.3文本索引39
2.3.4詞典39
2.3.5採樣表39
2.3.6前向索引40
2.3.7後向索引40
2.4元搜尋引擎41
2.4.1元搜尋引擎的基本構成41
2.4.2元搜尋引擎的分類43
2.4.3常用元搜尋引擎介紹44
2.4.4元搜尋引擎的特點45
2.4.5主要技術指標46
2.5個性化搜尋引擎47
2.5.1系統模組及其功能48
2.5.2個性化搜尋引擎的關鍵技術49
2.6智慧型搜尋引擎50
2.6.1智慧型搜尋引擎特徵50
2.6.2智慧型搜尋引擎主要技術51
小結52
思考題53
搜尋引擎技術與套用開發目錄第3章網頁抓取技術/55
3.1搜尋引擎爬蟲55
3.1.1網路爬蟲工作原理55
3.1.2開源網路爬蟲簡介56
3.1.3網頁信息的抓取58
3.2搜尋引擎爬蟲的關鍵技術60
3.2.1網頁抓取優先策略60
3.2.2深度優先策略61
3.2.3廣度優先策略62
3.2.4最佳優先策略63
3.2.5不重複抓取策略64
3.2.6網頁重訪策略68
3.2.7網頁抓取提速策略69
3.2.8Robots協定70
小結72
思考題73
第4章網路爬蟲開發技術/74
4.1網路爬蟲的常用技術74
4.1.1網路爬蟲工作流程74
4.1.2網路請求技術75
4.1.3網頁抓取技術80
4.1.4其他處理技術84
4.2正則表達式87
4.2.1什麼是正則表達式87
4.2.2正則表達式基礎知識88
4.2.3正則表達式常見函式90
4.2.4正則表達式的簡單使用92
4.3網路爬蟲常用框架95
4.3.1Scrapy爬蟲框架95
4.3.2Crawley爬蟲框架100
4.3.3PySpider爬蟲框架101
4.3.4Portia爬蟲框架106
4.4網路爬蟲實現技術107
4.4.1爬蟲偽裝技術107
4.4.2爬蟲定向爬取技術110
4.4.3部落格類爬蟲的實現技術112
小結114
思考題115
第5章網頁信息預處理技術/117
5.1網頁信息結構化117
5.1.1網頁結構化的目標117
5.1.2建立DOM樹118
5.1.3網頁內容的獲取120
5.2文本處理121
5.2.1詞法分析121
5.2.2中文分詞技術122
5.2.3無用詞刪除127
5.2.4詞幹提取128
5.2.5索引詞選擇135
5.2.6詞典136
5.3PageRank算法137
5.3.1什麼是PageRank137
5.3.2PageRank的算法138
5.3.3PageRank的特性140
5.3.4PageRank的疊代計算141
5.3.5網頁級別的最佳化142
小結144
思考題145
第6章信息索引技術/146
6.1順排檢索146
6.1.1表展開法146
6.1.2邏輯樹展開法149
6.1.3BF算法155
6.1.4KMP算法156
6.1.5BM算法158
6.2倒排檢索161
6.2.1倒排索引161
6.2.2倒排文檔162
6.2.3逆波蘭表達式164
6.2.4檢索指令表的生成166
6.2.5檢索實施167
6.3後綴數組索引168
6.3.1後綴樹概念168
6.3.2後綴樹原理168
6.3.3後綴樹存儲170
6.3.4後綴樹的構造170
6.3.5後綴數組172
6.3.6後綴數組生成算法173
6.4文本壓縮技術174
6.4.1基本概念174
6.4.2統計方法174
6.4.3字典方法180
6.4.4倒排文檔壓縮186
小結188
思考題190
第7章信息查詢與評價技術/192
7.1檢索模型192
7.1.1經典模型192
7.1.2代數模型197
7.2檢索方法200
7.2.1布爾檢索200
7.2.2加權檢索201
7.2.3全文檢索202
7.2.4超文本檢索206
7.3查詢服務209
7.3.1查詢器原理209
7.3.2搜尋引擎檢索過程210
7.3.3檢索結果排序213
7.3.4自動摘要生成216
7.4相關性219
7.4.1相關性的特徵219
7.4.2相關性類別220
7.4.3相關性模型222
7.5搜尋引擎評價指標225
7.5.1有效性225
7.5.2查全率和查準率225
7.5.3其他評價指標226
小結228
思考題230
第8章多媒體信息檢索技術/231
8.1多媒體的基本概念231
8.1.1多媒體及多媒體技術231
8.1.2音頻信息與檢索特徵233
8.1.3圖形圖像信息與檢索特徵236
8.1.4視頻信息與檢索特徵239
8.1.5多媒體信息檢索242
8.2多媒體數據壓縮246
8.2.1多媒體壓縮原理246
8.2.2多媒體壓縮編碼247
8.3多媒體內容的理解248
8.3.1分割248
8.3.2特徵提取249
8.3.3分類250
8.4多媒體信息檢索的關鍵技術250
8.4.1信息模型250
8.4.2檢索技術251
8.4.3查詢語言251
8.4.4數據壓縮和恢復251
8.4.5存儲管理252
8.4.6同步技術252
小結252
思考題254
第9章搭建基於Lucene的搜尋引擎/255
9.1實例簡介255
9.1.1搜尋引擎的體系結構255
9.1.2網頁蒐集257
9.1.3網頁預處理257
9.1.4查詢服務258
9.2環境搭建與配置259
9.2.1JDK 1.6的安裝與配置260
9.2.2Eclipse的安裝與配置262
9.2.3Tomcat的安裝與配置271
9.2.4Heritrix的安裝與配置274
9.3網頁蒐集282
9.3.1設定Heritrix抓取任務282
9.3.2修改Heritrix原始碼288
9.3.3抓取網頁292
9.4網頁預處理295
9.4.1原始網頁的處理295
9.4.2建立簡單的索引315
9.4.3為實例建立索引322
9.5查詢服務327
9.5.1結構設計327
9.5.2查詢設計327
9.5.3預搜尋設計334
9.5.4頁面設計335
9.5.5網頁快照實現342
9.5.6部署到Tomcat344
小結346
實驗346
參考文獻/348

相關詞條

熱門詞條

聯絡我們