內容簡介
本書全面地講述了Hadoop相關領域的重要知識和最新的技術及套用。書中首先介紹了數據挖掘的基礎知識、Hadoop的基本框架和相關信息,然後系統地描述了如何在各類行業中用好Hadoop來做數據挖掘。本書面向的主要讀者人群是想了解Hadoop與大數據的技術人員,無論他們是在網際網路企業,還是在傳統企業;無論他們從事的是技術或者運維工作,專業做數據分析,還是企業的策略官、市場官和運營官,都能從本書中找到各自所需要的內容。
目錄
第1章大數據概念的老調重彈........1
1.1網際網路和物聯網上的數據2
1.1.1網際網路上越來越多的數據被存儲.2
1.1.2物聯網帶來更多的數據.................4
1.2數據能為我們做的事........5
1.2.1用戶畫像和任何企業都需要關注的數據........................6
1.2.2大數據的3V、4V和N個V........7
1.2.3從數據分析到數據挖掘.................8
1.2.4大數據處理的三個維度.................9
1.3數據挖掘中的一些基本概念...................11
1.3.1分類算法....11
1.3.2聚類算法....12
1.3.3關聯算法....13
1.3.4序列算法....14
1.3.5估測和預測14
1.3.6A/BTest.....15
1.4數據倉庫................16
1.4.1數據倉庫是解決大數據存儲的基礎設施......................17
1.4.24種不同類型的數據倉庫............18
1.4.3國內外數據倉庫的不同使用方式.........19
1.5不包含在本書中的內容..21
1.6這本書都講些啥....22
第2章Hadoop的前世今生...........25
2.1Google的計算框架.........26
2.1.1Google公司的三篇論文..............26
2.1.2GFS檔案系統.....27
2.1.3MapReduce的模型和框架..........28
2.1.4BigTable資料庫..29
2.2Hadoop的誕生......30
2.2.1從GFS到HDFS.30
2.2.2Hadoop的基礎計算框架MapReduce...31
2.2.3從BigTable到HBase..................33
2.3Hadoop的今天......33
2.4Hadoop大事記......35
第3章等同於大數據的Hadoop...37
3.1Hadoop理念..........38
3.2Hadoop核心基礎架構....39
3.2.1Namenode和Datanode................39
3.2.2Hadoop底層的檔案系統HDFS..40
3.2.3Hadoop上的資料庫HBase.........42
3.3Hadoop上的各種其他組件.....................44
3.3.1資源分配系統YARN..................44
3.3.2靈活的程式語言pig.....................46
3.3.3數據挖掘工具Mahout.................48
3.3.4專注於數據挖掘的R語言..........48
3.3.5數據倉庫工具Hive......................49
3.3.6數據採集系統Flume...................51
3.4Spark和Hadoop....51
3.4.1閃電俠出現了......51
3.4.2大數據領域的TaylorSwift.........52
3.4.3Spark的架構.......53
3.4.4Spark和流處理...54
第4章Hadoop的價值..................57
4.1大數據時代需要新的架構.......................58
4.1.1企業IT面臨的挑戰.....................58
4.1.2數據分析要考慮的問題...............59
4.1.3新的IT架構的需求.....................60
4.2Hadoop能解決的問題....61
4.2.1Hadoop適合做的事情.................61
4.2.2Hadoop對系統數據安全性的保障.......62
4.2.3數據流與數據流處理...................62
4.3去IOE....................65
4.47種最常見的Hadoop和Spark項目......71
第5章Hadoop系統速成..............75
5.1Hadoop系統搭建速成....76
5.1.1Hadoop系統的三種運行模式.....76
5.1.2單點搭建Hadoop系統................76
5.1.3全分散式(多節點)搭建Hadoop系統...80
5.1.4在Hadoop上編程........................83
5.1.5Hadoop系統的典型配置.............83
5.2在雲上運行Hadoop........85
5.2.1在金山雲上運行Hadoop.............86
5.2.2微軟的HDInsight89
5.3Hadoop信息大全..90
第6章數據倉庫和Hadoop...........93
6.1大數據時代的數據系統設計...................94
6.1.1分散式系統上的CAP原理.........94
6.1.2ACID和BASE概念的區別........95
6.1.3NoSQL.......96
6.1.4各種數據源的整合.....................100
6.2傳統數據倉庫的瓶頸....101
6.2.1傳統數據倉庫的瓶頸之一:數據量的問題................101
6.2.2傳統數據倉庫的瓶頸之二:數據類型的問題............102
6.2.3傳統數據倉庫的瓶頸之三:數據處理的延時問題....102
6.2.4傳統數據倉庫的瓶頸之四:數據模型的變化問題....103
6.3Hadoop是解決數據倉庫瓶頸的方法..104
6.3.1解決數據量的問題.....................104
6.3.2解決數據類型的問題.................105
6.3.3數據處理的速度問題.................106
6.3.4數據模型的變化問題.................107
6.4基於Hadoop和Spark的數據倉庫解決方案.108
6.4.1基於Hadoop/Spark結構的數據倉庫系統架構...........108
6.4.2分散式計算引擎109
6.4.3標準化的編程模型.....................110
6.4.4數據操作方式的多樣性.............110
6.4.5OLAP互動式統計分析能力.....110
6.4.6多類型數據的處理能力.............111
6.4.7實時計算與企業數據匯流排.........111
6.4.8數據探索與挖掘能力.................111
6.4.9安全性和許可權管理.....................112
6.4.10混合負載管理..112
第7章在不同套用環境下的Hadoop....115
7.1在存儲密集型環境中的Hadoop...........116
7.2在網路密集型環境中的Hadoop...........118
7.3在運算密集型環境中的Hadoop...........121
7.4Hadoop平台的對比和選擇...................127
7.4.1為什麼會選擇商用的Hadoop系統....127
7.4.2商用Hadoop系統之間的選擇..130
第8章Hadoop在網際網路公司的套用....133
8.1Hadoop在騰訊....134
8.2Hadoop在Facebook的套用.................138
8.3金山的Hadoop....140
8.4迅雷公司對Hadoop的套用..................144
第9章Hadoop和行業套用之一.147
9.1Hadoop和運營商148
9.2Hadoop和公用事業......163
9.3Hadoop和“智慧工商”.......................175
9.4Hadoop和政務雲183
第10章Hadoop與“衣食住行”中的“食”和“行”....191
10.1Hadoop和“食”........192
10.2Hadoop和“行”........201
第11章Hadoop和行業套用之三.........209
11.1Hadoop和金融..210
11.1.1金融的大數據屬性...................210
11.1.2金融企業的風險控制...............211
11.2Hadoop和醫療..221
11.3Hadoop和物流..226
11.4Hadoop和媒體..229
第12章特殊場景下的Hadoop系統.....237
12.1Hadoop和實時系統....238
12.2Hadoop平台的一些特殊場景實現.....243
第13章Hadoop系統的挑戰和應對......247
13.1Hadoop系統使用須知248
13.2Hadoop平颱風險點預估.....................250
13.2.1Namenode的單點故障和系統的可用性...................250
13.2.2集群硬體故障導致平台可靠性與可用性大幅降低251
13.2.3Hadoop集群大數據安全和隱私問題........................252
13.3Hadoop平台硬體故障的應對機制.....252
13.3.1監控軟硬體故障的應對機制...253
13.3.2斷電處理255
13.4Hadoop平台如何真正做到高可用性.255
13.4.1Hadoop系統的高可用性冗餘性保障........................256
13.4.2Facebook的NamenodeHA的方案..256
13.4.3TDH的Namenode高可用性冗餘解決方案.............257
13.5Hadoop平台安全性和隱私性的應對機制...259
13.5.1關於安全和隱私問題的7個事項.....259
13.5.2星環的4A級統一安全管理解決方案.......................259
13.5.3Hadoop系統安全Checklist.....262
第14章Hadoop的未來..............263
14.1Hadoop未來的發展趨勢.....................264
14.1.1對數據系統的不斷升級...........264
14.1.2機器學習264
14.2Hadoop和區塊鏈........265
附錄A專業辭彙表.......................267
附錄B引用文獻.271
附錄C參考網站一覽...................273
附錄DHDFS命令行列表............275
附錄E本書引用案例索引............278