解惑大數據

解惑大數據

《解惑大數據》是一本系統介紹大數據的技術普及讀物,可幫助讀者迅速了解大數據的概況。全書分為4章,共120個問題,內容涵蓋大數據概念、大數據技術、大數據套用等各個方面。

基本介紹

  • 中文名:解惑大數據
  • 出版社:人民郵電出版社
  • 頁數:123 頁
  • 開本:16 開
  • 定價:36 元
  • 作者:丁聖勇 樊勇兵
  • 出版日期:2013年9月1日
  • 語種:簡體中文
  • ISBN:9787115325341 
  • 品牌:人民郵電出版社
內容簡介,圖書目錄,
第1章為大數據概述篇,介紹了大數據的概念、技術特點及套用方向等;第2章為分散式平台篇,介紹了大數據的核心計算平台;第3章為分散式資料庫篇,介紹大數據中廣泛使用的分散式資料庫;第4章為大數據與數據挖掘篇,介紹經典的數據挖掘算法以及大數據如何實現規模化和並行化處理。 《解惑大數據》可作為對大數據技術感興趣的讀者以及工程技術人員、行業管理人員、大數據系統的設計開發人員的技術參考資料,也可以作為大學本科高年級學生和研究生相關課程的參考書。
簡明扼要。內容簡明,將大量的概念、技術內容以問答的形式給出,便於讀者能夠非常快速地找到自己感興趣的內容同時獲得精簡的答案。
通俗易懂。考慮到讀者對技術掌握程度深淺不同,相應的技術內容介紹均使用通俗的語言,以使得非技術領域的讀者能夠了解大數據技術的核心理念。
自成體系。內容覆蓋大數據價值、技術、套用,尤其是技術部分覆蓋了目前主流的大數據平台,是較為全面的大數據“技術辭典”。
第1章 大數據概述 1
Q1.什麼是大數據? 1
Q2.大數據的規模如何? 1
Q3.什麼是大數據的多樣化? 1
Q4.什麼是大數據的快速化? 2
Q5.什麼是大數據的價值化? 2
Q6.大數據的起源是什麼? 2
Q7.大數據帶來了哪些機遇? 3
Q8.大數據帶來了哪些挑戰? 4
Q9.什麼是結構化數據? 5
Q10.什麼是非結構化數據? 5
Q11.大數據的技術特點是什麼? 5
Q12.大數據有哪些處理模式? 5
Q13.大數據的硬體架構有什麼特點? 6
Q14.大數據的軟體架構有什麼特點? 6
Q15.大數據與雲計算有什麼關係? 7
Q16.大數據適合哪些套用? 7
Q17.零售行業如何套用大數據? 7
Q18.金融行業如何套用大數據? 8
Q19.交通行業如何套用大數據? 9
Q20.網際網路行業如何套用大數據? 10
Q21.電信行業如何套用大數據? 11
第2章 分散式平台 13
2.1 分散式平台的基本概念 13
Q22.什麼是分散式平台? 13
Q23.分散式平台的基本原理是什麼? 14
Q24.什麼是分散式檔案系統? 14
Q25.什麼是分散式計算? 15
2.2 開源項目 16
2.2.1 Hadoop 16
Q26.什麼是Hadoop? 16
Q27.Hadoop有哪些套用領域? 16
Q28.Hadoop的歷史是什麼? 17
Q29.Hadoop的優點是什麼? 17
Q30.Hadoop和RDBMS的區別是什麼? 18
Q31.Hadoop和高效能計算、格線計算的區別是什麼? 17
Q32.Hadoop的發展現狀如何? 20
Q33.Hadoop系統架構如何? 21
Q34.什麼是HDFS? 24
Q35.什麼是MapReduce? 31
2.2.2 GraphLab 40
Q36.什麼是GraphLab? 40
Q37.GraphLab出現的背景是什麼? 40
Q38.GraphLab和MapReduce的區別是什麼? 41
Q39.GraphLab的優點是什麼? 42
Q40.GraphLab的軟體棧結構是怎樣的? 42
Q41.GraphLab並行化的基本思想是什麼? 43
Q42.GraphLab的數據模型是什麼? 45
Q43.GraphLab程式的執行模型是什麼? 46
Q44.GraphLab和Mahout的區別是什麼? 47
Q45.GraphLab有哪些相關子項目? 47
2.2.3 DPark 47
Q46.DPark是什麼? 47
Q47.Spark是什麼? 48
Q48.Spark和MapReduce的區別是什麼? 48
Q49.DPark中有哪些基本概念? 49
Q50.DPark的計算模型是怎樣的? 51
Q51.RDD的工作原理是什麼? 52
Q52.RDD的容錯機制是什麼? 53
Q53.RDD內部的設計機制是什麼? 54
Q54.DPark的任務調度機制是什麼? 55
Q55.DPark共享變數的實現機制是怎樣的? 56
Q56.DPark和Spark的性能比較如何? 57
Q57.DPark和Spark的區別是什麼? 58
2.2.4 Storm 59
Q58.Storm是什麼? 59
Q59.Storm出現的背景是什麼? 59
Q60.Storm有哪些套用領域? 60
Q61.Storm的設計特徵是什麼? 61
Q62.Storm中有哪些關鍵概念? 61
Q63.Storm集群中有哪些組件? 65
Q64.Storm如何高效地實現訊息的可靠性? 66
Q65.Storm是如何實現容錯的? 69
Q66.Storm有哪些缺點? 69
第3章 分散式資料庫 71
3.1 分散式資料庫的基本概念 71
Q67.什麼是分散式資料庫? 71
Q68.什麼是關係型資料庫? 71
Q69.什麼是NoSQL資料庫? 72
Q70.為什麼需要分散式資料庫? 72
Q71.大數據時代分散式資料庫的特徵是什麼? 73
Q72.分散式資料庫相對傳統集中式資料庫的優點有哪些? 73
Q73.什麼是CAP定理? 73
3.2 開源項目 74
3.2.1 HBase 74
Q74.HBase是什麼? 74
Q75.HBase的定位是什麼? 74
Q76.HBase的設計特徵是什麼? 75
Q77.HBase和傳統資料庫的區別是什麼? 75
Q78.HBase的數據模型是什麼? 76
Q79.運行中的HBase有什麼特點? 79
Q80.HBase的集群架構是怎樣的? 80
Q81.HBase的存儲架構是怎樣的? 81
Q82.HBase和HDFS的關係是什麼? 84
Q83.如何在HBase上運行MapReduce? 84
Q84.HBase能否支持SQL? 85
Q85.HBase有哪些常用場景? 85
3.2.2Hive 86
Q86.什麼是Hive? 86
Q87.Hive的適用場景有哪些? 86
Q88.Hive的設計特徵是什麼? 87
Q89.Hive和RDBMS的區別是什麼? 87
Q90.Hive的體系結構是怎樣的? 89
Q91.Hive的元數據存儲方案有哪些? 90
Q92.Hive的數據存儲模型有哪些? 92
Q93.Hive和SQL的區別是什麼? 94
Q94.常見的HiveQL操作有哪些? 95
Q95.什麼是Hive的用戶定義函式? 101
3.2.3 MongoDB 101
Q96.什麼是MongoDB? 101
Q97.MongoDB的設計特徵是什麼? 102
Q98.MongoDB的設計哲學是什麼? 103
Q99.MongoDB中有哪些基本概念? 104
Q100.MongoDB數據模型是怎樣的? 105
Q101.MongoDB和SQL的區別是什麼? 105
Q102.如何進行MongoDB的CRUD操作? 107
Q103.MongoDB支持哪些資料庫驅動? 109
Q104.MongoDB如何實現高可用? 110
Q105.MongoDB的分片機制是怎樣的? 111
Q106.MongoDB有哪些適用場景? 113
第4章 大數據與數據挖掘 115
Q107.什麼是數據挖掘? 115
Q108.什麼是機器學習? 115
Q109.數據挖掘主要解決的問題有哪些? 115
Q110.傳統數據挖掘有哪些算法? 118
Q111.什麼是有監督學習? 118
Q112.什麼是無監督學習? 118
Q113.什麼是C4.5算法? 119
Q114.什麼是SVM? 119
Q115.什麼是貝葉斯算法? 120
Q116.什麼是K—Means算法? 120
Q117.什麼是EM算法? 121
Q118.什麼是Apriori算法? 121
Q119.數據挖掘算法在電信行業如何套用? 121
Q120.大數據時代如何進行數據挖掘? 122

相關詞條

熱門詞條

聯絡我們