《大數據浪潮——大數據整體解決方案及關鍵技術探索》是華中科大出版社出版的,由陳敏等人編著的一本在大數據學科發展前沿和大數據產業發展方向上,結合學術界和工業界的研究成果和實踐經驗,傳播大數據領域的研究動態和先進技術。全書通過“基礎、進階、實戰、套用”四個篇章,既深入淺出地介紹大數據的基本概念,又面面俱到地剖析了大數據整體解決方案所涉及的具體技術細節。本書既適合初學者作為基礎學習資料,又適合科研人員作為理論研究教程,更適合從業人員作為技術參考書目。
基本介紹
- 書名:大數據浪潮——大數據整體解決方案及關鍵技術探索
- 作者:陳敏等
- ISBN:978-7-5680-1270-6
- 類別:大數據和數據倉庫
- 頁數:251
- 定價:43
- 出版社:華中科大出版社出版
- 出版時間:2015.11
- 裝幀:平裝
- 開本:16
內容簡介
目錄信息
1.1大數據時代的到來(8)
1.2大數據定義及特徵(4)
1.3大數據價值(6)
1.4大數據備受關注(7)
1.5大數據帶來的挑戰(8)
2大數據基礎(10)
2.1雲計算(10)
2.1.1雲計算概述(10)
2.1.2雲計算與大數據的聯繫(12)
2.2物聯網(13)
2.2.1物聯網概述(13)
2.2.2物聯網與大數據(14)
2.3數據中心(14)
2.3.1數據中心概述(14)
2.3.2數據中心與大數據(15)
3大數據的生成和採集(19)
3.1大數據生成(19)
3.1.1企業內部數據(19)
3.1.2物聯網數據(20)
3.1.3網際網路數據(21)
3.1.4生物醫療數據(21)
3.1.5其他科學數據(22)
3.2大數據採集(22)
3.2.1數據收集(23)
3.2.2數據傳輸(25)
3.2.3數據預處理(26)
4大數據存儲(28)
4.1海量存儲系統(28)
4.2分散式存儲系統(29)
4.3大數據存儲機制(31)
4.3.1資料庫技術(32)
4.3.2資料庫編程模型(36)
5大數據分析(39)
5.1傳統數據分析方法(39)
5.2大數據分析方法(40)
5.3大數據分析架構(42)
5.4大數據挖掘和分析軟體(43)
大數據浪潮——大數據整體解決方案及關鍵技術探索目錄6大數據整體解決方案(47)
6.1大數據解決方案方法論(47)
6.1.1大數據解決方案參考模型(48)
6.1.2大數據解決方案分類(49)
6.2大數據硬體平台(50)
6.2.1可擴展性設計(51)
6.2.2可定製性設計(52)
6.3大數據軟體系統(55)
6.3.1大數據處理系統核心模組(55)
6.3.2發行版增強功能、企業套用最佳化和增值服務(56)
6.3.3基於記憶體計算的大數據處理系統(60)
6.4大數據典型處理流程(63)
6.5大數據一體化解決方案比較(67)
7分散式檔案系統HDFS(72)
7.1Hadoop I/O操作(72)
7.1.1I/O操作中的數據檢查(73)
7.1.2數據的壓縮(76)
7.1.3數據的I/O中序列化操作(78)
7.2Hadoop檔案系統(87)
7.3HDFS體系結構(89)
7.3.1HDFS的特點和局限(89)
7.3.2HDFS相關概念(90)
7.3.3HDFS架構(91)
7.4 HDFS檔案結構(94)
7.4.1NameNode的檔案結構(94)
7.4.2編輯日誌(edit log)及檔案系統映像(filesystem image)(95)
7.4.3Secondary NameNode的目錄結構(96)
7.4.4DataNode的目錄結構(97)
7.5HDFS讀/寫數據流(98)
7.5.1檔案的讀取(98)
7.5.2檔案的寫入(99)
7.5.3一致性模型(101)
7.6HDFS命令詳解(102)
7.6.1通過distcp進行並行複製(102)
7.6.2HDFS平衡(103)
7.6.3其他命令(103)
8並行編程模型MapReduce(108)
8.1MapReduce體系結構(108)
8.1.1MapReduce基本模型(108)
8.1.2MapReduce作業執行流程(108)
8.2MapReduce關鍵流程詳解(110)
8.2.1partiton過程(110)
8.2.2combine過程(111)
8.2.3shuffle過程(112)
8.3MapReduce高級套用(114)
8.3.1二次排序(114)
8.3.2全排序(119)
8.3.3分散式快取(121)
8.3.4MapReduce 小檔案處理與檔案壓縮(123)
8.3.5MapReduce負載均衡(125)
9NoSQL資料庫HBase(128)
9.1HBase體系結構(128)
9.2RowKey的設計與數據訪問(132)
9.3過濾器(135)
9.3.1比較過濾器(137)
9.3.2專用過濾器(137)
9.3.3附加過濾器(139)
9.3.4FilterList(139)
9.3.5自定義過濾器(140)
9.4HBase多維數據訪問(142)
9.4.1通過Filter實現(142)
9.4.2通過設計RowKey實現(143)
9.5協處理器Coprocessor(143)
9.5.1Coprocessor類(144)
9.5.2協處理器的載入(144)
9.5.3觀察者(146)
9.5.4終端(150)
9.6二級索引(154)
9.6.1全局索引(global index)(154)
9.6.2本地索引(local index)(155)
10互動式查詢語言Hive(157)
10.1Hive體系結構(157)
10.1.1Hive客戶端(159)
10.1.2Metastore(159)
10.2Hive數據類型(160)
10.2.1基本類型(161)
10.2.2複雜類型(161)
10.3Hive存儲方式和壓縮類型(162)
10.3.1託管表和外部表(162)
10.3.2存儲方式(163)
10.4Hive關鍵技術(164)
10.4.1HiveQL簡介(164)
10.4.2Hive表的創建(165)
10.4.3Hive表的數據載入(166)
10.4.4Hive表的查詢(167)
10.4.5Hive表的更改(170)
10.4.6Hive表的刪除(171)
10.4.7Hive表的分區(171)
10.4.8Hive表的分桶(173)
10.4.9用戶定義函式(174)
10.5Hive最佳化技術(175)
10.5.1Join最佳化(175)
10.5.2數據傾斜最佳化(176)
10.5.3Map和Reduce個數控制(177)
11資源管理和調度框架——YARN(180)
11.1MRv1架構面臨的問題(180)
11.2YARN架構(181)
11.2.1YARN整體架構(181)
11.2.2RM組件的作用(183)
11.2.3AM組件的作用(184)
11.2.4NM組件的作用(185)
11.2.5運行在YARN上的計算框架(186)
11.2.6在YARN上定製計算框架(187)
11.3YARN管理後台簡介(188)
11.4YARN資源調度(192)
12記憶體計算引擎Spark(197)
12.1Spark簡介(197)
12.2Spark整體架構(198)
12.3Spark核心概念(199)
12.3.1彈性分散式數據集(199)
12.3.2RDD模型的優點(200)
12.3.3Spark DAG(201)
12.4Spark編程模型(202)
12.4.1Spark初始化(203)
12.4.2RDDs(203)
12.4.3Shared Variables(205)
12.5Spark相關組件(207)
12.6Spark套用實例(208)
12.6.1InMemory Analytics(208)
12.6.2Traffic Modeling(209)
12.6.3Twitter Spam Classification (209)
13大數據套用(213)
13.1大數據套用演化(213)
13.2大數據分析的關鍵領域(214)
13.2.1結構化數據分析(214)
13.2.2文本分析(215)
13.2.3Web分析(216)
13.2.4多媒體分析(217)
13.2.5網路分析(218)
13.2.6移動分析(219)
14大數據案例分析(221)
14.1物聯網大數據(221)
14.1.1物聯網大數據的表示(222)
14.1.2物聯網大數據的預處理(223)
14.1.3物聯網大數據的快速處理(224)
14.1.4物聯網大數據的並行分析(226)
14.1.5物聯網大數據處理平台的搭建(227)
14.2其他大數據的典型套用(231)
14.2.1企業級套用(231)
14.2.2社交網路大數據(232)
14.2.3醫療健康(234)
14.2.4群智感知(235)
14.2.5智慧型電網(235)
15總結(237)
15.1大數據的研究熱點及研究方向(237)
15.1.1基礎理論研究(237)
15.1.2關鍵技術研究(238)
15.1.3套用實踐研究(238)
15.1.4數據安全研究(239)
15.2展望(240)
參考文獻(243)