大數據搜尋引擎原理分析

大數據搜尋引擎原理分析

《大數據搜尋引擎原理分析》是2018年11月電子工業出版社出版的圖書,作者是劉凡平。

基本介紹

  • 中文名:大數據搜尋引擎原理分析
  • 作者:劉凡平
  • 類別:數據倉庫與數據挖掘 
  • 出版社:電子工業出版社
  • 出版時間:2018年11月
  • 頁數:356 頁
  • 定價:69 元
  • 開本:128 開
  • 裝幀:平裝
  • ISBN:9787121352454 
  • 外文名:Principle analysis of big data search engine
內容簡介,圖書目錄,作者簡介,

內容簡介

本書是暢銷書升級版,向讀者提供了一套完整的大數據時代背景下的搜尋引擎解決方案,詳盡地介紹了搜尋引擎的技術架構、算法體系及取得的成果,並以模組化的方式進行組織。本書著重介紹了機器學習在搜尋引擎中的套用,包括中文分詞、聚類、分類等核心的機器學習算法,並結合示例加以介紹和分析,使讀者可以更好地理解機器學習在搜尋引擎中的價值;同時,闡述了大數據給搜尋引擎帶來的新特性,結合目前大數據分析的主流工具,在搜尋引擎中構建知識圖譜,以及進行日誌反饋學習,可以使得搜尋引擎更加智慧型。本書不僅適合作為網際網路行業從業者的技術參考書,也適合作為搜尋引擎愛好者的參考讀物。

圖書目錄

第1章?引論 1
1.1?搜尋引擎的過去 1
1.2?搜尋引擎的現在 2
1.3?搜尋引擎的未來 4
1.4?大數據與搜尋引擎 6
1.4.1?搜尋價值提升 6
1.4.2?用戶價值提升 7
1.5?大數據與人工智慧 7
1.5.1?人工智慧的發展 7
1.5.2?人工智慧技術 9
1.6 搜尋引擎與人工智慧 11
1.7?本章小結 13
第2章?搜尋引擎原理與技術 14
2.1?基本工作原理 14
2.2?基本模組結構 15
2.2.1?網路爬蟲服務 16
2.2.2?索引服務 17
2.2.3?快取服務 18
2.2.4?搜尋服務 19
2.2.5?日誌服務 21
2.3?技術概要 22
2.3.1?自然語言處理 22
2.3.2?知識圖譜 23
2.3.3?海量數據存儲 25
2.3.4?分散式計算 27
2.3.5?搜尋排序 28
2.4 開源技術 29
2.4.1 Apache Lucene 29
2.4.2 Apache Nutch 31
2.4.3 Sphinx 32
2.4.4 Elastic Search 34
2.5?本章小結 36
第3章?自然語言處理框架 37
3.1?英文分詞 37
3.2?中文分詞 39
3.2.1?中文分詞概述 39
3.2.2?基於詞庫的分詞技術 40
3.2.3?基於條件隨機場模型的中文分詞 42
3.2.4?分詞粒度 49
3.3?詞性標註 50
3.3.1?隱馬爾科夫模型概要 51
3.3.2?隱馬爾科夫模型與詞性標註 52
3.4?語義相似度 60
3.5?依存句法分析 62
3.5.1?依存句法分析概要 62
3.5.2?依存句法分析實現 65
3.6?情感傾向分析 68
3.7?文檔關鍵字提取 70
3.7.1?文檔關鍵字提取概述 70
3.7.2?基於TF-IDF算法 71
3.7.3?基於TextRank算法 73
3.8?文檔句子相似度分析 76
3.8.1?句子相似度 77
3.8.2?文檔相似度 79
3.9?文檔核心句提取 80
3.10?文本的分類與聚類 83
3.10.1?文本分類 84
3.10.2?文本聚類 89
3.11?語種檢測 96
3.12?本章小結 98
第4章?構建大數據存儲引擎 99
4.1?架構體系 100
4.1.1?結構概要 100
4.1.2?伺服器上線 103
4.1.3?伺服器下線 103
4.1.4?數據讀取 104
4.2?數據存儲模型 105
4.3?數據壓縮 107
4.4?負載均衡 108
4.5?數據存儲邏輯視圖 111
4.6?本章小結 114
第5章?構建分散式實時計算 115
5.1?概述 115
5.2?設計架構 117
5.2.1?設計思想 117
5.2.2?基本框架 119
5.3?運行模式 121
5.4?負載均衡 122
5.5?通信設計 123
5.5.1?基本方式 124
5.5.2?分散式遠程服務調用 124
5.6?容災恢復 125
5.7?數據容錯原理 126
5.8?數據處理設計示例 128
5.9?本章小結 129

作者簡介

劉凡平,碩士,畢業於中國科學技術大學軟體系統設計專業。曾任職微軟亞太研發集團、百度(中國)有限公司。現任薇問(北京)科技有限公司首席技術官,負責搜尋引擎技術與大數據人工智慧平台研發工作。擅長搜尋引擎、大數據分析、分散式計算等相關研發工作,是Iveely開源搜尋引擎的主要貢獻者之一。

相關詞條

熱門詞條

聯絡我們