大數據搜尋引擎原理分析及編程實現

內容簡介

本書向讀者提供了一套完整的大數據時代背景下的搜尋引擎解決方案，詳盡地介紹了搜尋引擎的技術架構、算法體系及取得的效果，以模組化的方式進行組織。著重介紹了機器學習在搜尋引擎中的套用，包括中文分詞、聚類、分類等核心的機器學習算法，並結合示例加以介紹和分析，使讀者可以更好地理解機器學習在搜尋引擎中的價值。還闡述了大數據給搜尋引擎帶來的新特性，結合目前大數據分析的主流工具，在搜尋引擎中構建知識圖譜，以及進行日誌反饋學習機制，使得搜尋引擎更加智慧型。本書適合作為網際網路行業從業者的技術參考書，也適合作為搜尋引擎愛好者的參考讀物。

第1章引論1
1.1 搜尋引擎的過去1
1.2 搜尋引擎的現在2
1.3 搜尋引擎的未來4
1.4 大數據與搜尋引擎6
1.4.1 搜尋價值提升6
1.4.2 用戶價值提升7
1.5 大數據與人工智慧7
1.5.1 人工智慧發展7
1.5.2 人工智慧技術9
1.6 本章小結11
第2章搜尋引擎原理與技術12
2.1 基本工作原理12
2.2 基本模組結構13
2.2.1 爬蟲服務14
2.2.2 索引服務15
2.2.3 快取服務16
2.2.4 搜尋服務17
2.2.5 日誌服務19
2.3 技術概要20
2.3.1 自然語言處理20
2.3.2 知識圖譜技術21
2.3.3 海量數據存儲23
2.3.4 分散式計算25
2.3.5 搜尋排序技術26
2.4 本章小結27
第3章自然語言處理框架28
3.1 英文分詞28
3.2 中文分詞30
3.2.1 中文分詞概述30
3.2.2 基於詞庫的分詞技術31
3.2.3 基於條件隨機場的中文分詞33
3.2.4 分詞粒度41
3.3 詞性標註41
3.3.1 隱馬爾科夫模型概要42
3.3.2 隱馬爾科夫模型與詞性標註43
3.4 語義相似度51
3.5 依存句法分析53
3.5.1 依存句法分析概要53
3.5.2 依存句法分析實現56
3.6 情感傾向分析59
3.7 文檔關鍵字抽取61
3.7.1 關鍵字抽取概述61
3.7.2 基於TF-IDF算法62
3.7.3 基於TextRank算法64
3.8 文檔句子相似度分析67
3.8.1 句子相似度68
3.8.2 文檔相似度70
3.9 文檔核心句抽取71
3.10 聚類分類74
3.10.1 文本分類75
3.10.2 文本聚類80
3.11 語種檢測84
3.12 本章小結87
第4章構建大數據存儲引擎88
4.1 架構體系89
4.1.1 結構概要89
4.1.2 伺服器上線92
4.1.3 伺服器下線92
4.1.4 數據讀取93
4.2 數據模型94
4.3 數據壓縮96
4.4 負載均衡97
4.5 數據存儲邏輯視圖100
4.6 本章小結103
第5章構建分散式實時計算104
5.1 概述104
5.2 設計架構106
5.2.1 設計思想106
5.2.2 基本框架108
5.3 運行模式110
5.4 負載均衡111
5.5 通信設計112
5.5.1 基本方式113
5.5.2 分散式遠程服務調用113
5.6 容災恢復114
5.7 數據容錯原理115
5.8 數據處理設計示例117
5.9 本章小結118
第6章分散式可擴展爬蟲119
6.1 爬蟲體系架構119
6.1.1 主從分散式結構爬蟲120
6.1.2 對等分散式結構爬蟲120
6.1.3 基於分散式計算平台爬蟲121
6.2 網頁解析122
6.2.1 狀態碼處理123
6.2.2 連結去重123
6.2.3 廣告識別125
6.2.4 網站地圖128
6.2.5 非網頁數據獲取129
6.2.6 網頁去重130
6.2.7 連結提取134
6.2.8 爬蟲協定135
6.3 網頁結構化137
6.3.1 網頁的編碼信息137
6.3.2 網頁的正文信息138
6.3.3 網站的關鍵字信息142
6.3.4 網站的標題142
6.3.5 網頁的發布時間144
6.3.6 網站語言檢測144
6.3.7 其他結構化數據145
6.4 網頁抓取策略146
6.5 爬蟲許可權應對147
6.6 深網抓取150
6.7 抓取更新策略151
6.8 本章小結153
第7章大數據構建知識圖譜154
7.1 概述154
7.2 搜尋引擎與知識圖譜155
7.3 可靠數據源選擇157
7.4 實體抽取158
7.5 關係抽取159
7.5.1 關係抽取概述160
7.5.2 隱藏關係抽取161
7.5.3 結構化確定關係抽取164
7.5.4 非結構化確定關係抽取166
7.6 知識圖譜檢測171
7.6.1 實體關係修正171
7.6.2 實體對齊整合172
7.6.3 實體歧義分析174
7.7 知識推理與計算175
7.7.1 知識推理175
7.7.2 知識計算176
7.8 知識聚類179
7.9 智慧型搜尋實現181
7.9.1 模式匹配181
7.9.2 知識拆解182
7.9.3 合併求解184
7.10 智慧型搜尋擴展186
7.10.1 常識性智慧型搜尋186
7.10.2 實時信息智慧型搜尋187
7.10.3 可互動式智慧型搜尋187
7.11 本章小結189
第8章索引構建機制190
8.1 倒排索引190
8.1.1 倒排索引概述191
8.1.2 索引結構192
8.1.3 構建過程194
8.1.4 排序規則195
8.1.5 索引壓縮196
8.1.6 更新策略202
8.2 分散式存儲202
8.2.1 存儲劃分方式203
8.2.2 存儲平衡策略204
8.3 存儲索引209
8.3.1 二叉搜尋樹210
8.3.2 B樹211
8.3.3 B+樹213
8.3.4 B+樹與檔案索引214
8.4 字典樹索引216
8.4.1 字典樹索引概述217
8.4.2 字典樹索引構建219
8.4.3 字典樹查詢最佳化221
8.5 本章小結221
第9章搜尋服務構建223
9.1 概述223
9.1.1 體系結構223
9.1.2 七何分析法224
9.1.3 搜尋語法225
9.1.4 相關性排序227
9.1.5 不安全信息過濾231
9.2 大數據分散式快取235
9.2.1 快取結構設計235
9.2.2 快取更新策略236
9.3 文本糾錯算法237
9.3.1 中文文本糾錯237
9.3.2 英文文本糾錯241
9.4 結果顯示算法242
9.4.1 動態摘要243
9.4.2 關鍵字高亮算法246
9.4.3 網頁快照250
9.5 搜尋智慧型提示250
9.6 網頁排序254
9.6.1 基於PageRank的網頁重要性評價254
9.6.2 基於Hits算法的網頁權威性評價257
9.6.3 Hilltop算法259
9.6.4 網頁作弊評價260
9.6.5 網頁排序調試263
9.7 個性化搜尋264
9.7.1 個性化搜尋示例264
9.7.2 人工神經網路與個性化搜尋265
9.7.3 地理位置搜尋266
9.8 圖片搜尋271
9.8.1 基於內容的圖片搜尋271
9.8.2 基於文本的圖片搜尋272
9.9 搜尋與廣告274
9.9.1 廣告投放策略275
9.9.2 基於User-Based協同過濾的廣告投放275
9.9.3 基於Item-Based協調過濾的廣告投放277
9.9.4 基於混合模式廣告投放278
9.9.5 廣告投放評價279
9.10 搜尋引擎評價282
9.10.1 搜尋評價概述282
9.10.2 基於準確率、召回率及F值評價283
9.10.3 歸一化折扣累計增益285
9.11 本章小結288
第10章基於用戶日誌的反饋學習290
10.1 基於用戶搜尋詞語的分析290
10.1.1 發現搜尋詞的價值291
10.1.2 發現不明意圖下的用戶行為292
10.2 基於用戶點擊日誌的分析293
10.2.1 時間與搜尋意圖的關係293
10.2.2 地理位置與搜尋意圖的關係294
10.2.3 點擊日誌與同義詞296
10.2.4 點擊日誌與詞語權重297
10.2.5 點擊日誌與新詞分類298
10.2.6 點擊日誌與知識圖譜300
10.2.7 點擊日誌與網頁重排序301
10.2.8 點擊日誌與網頁評價303
10.3 基於用戶的特徵分析304
10.3.1 用戶跟蹤305
10.3.2 用戶群體特徵306
10.3.3 用戶個體特徵308
10.4 本章小結309

大數據搜尋引擎原理分析及編程實現

基本介紹

內容簡介

目錄

相關詞條

熱門詞條

大數據搜尋引擎原理分析及編程實現

基本介紹

內容簡介

目 錄

相關詞條

熱門詞條

目錄