基本介紹
- 書名:大數據導論:關鍵技術與行業套用最佳實踐
- 作者:深圳國泰安教育技術股份有限公司大數據事業部群、中科院深圳先進技術研究院——國泰安金融大數據研究中心
- 出版社:清華大學出版社
- 出版時間:2015年3月
- 定價:57 元
- ISBN:9787302392712
內容簡介,圖書目錄,
內容簡介
本書全面闡釋了大數據的概念、相關的技術和套用的現狀,使讀者對大數據的相關技術、套用和產業鏈能有一個比較清晰的認識。
全書共 11 章,主要內容包括大數據概論、數據組織存儲技術、NoSQL、Hadoop 和 MapReduce、數據查詢和分析高級技術、數據挖掘技術、數據分析語言 R、大數據用於預測和決策、大數據與市場行銷、大數據套用案例、大數據套用主流解決方案等。
本書在內容的選擇上進行了深入的思考,不論是大數據領域的初學者還是具備一定相關專業知識的讀者都能從書中得到一定的收穫或啟發,同時,本書還適合高等院校的計算機相關專業的本專科生、研究生以及IT行業的從業人員,和所有對大數據感興趣的人士閱讀。
圖書目錄
第1章 大數據概論
1.1 什麼是大數據
.
.................................................................................................................1
1.1.1 大數據的概念
.
................................................................................................................... 2
1.1.2 大數據的特徵
.
................................................................................................................... 2
1.1.3 大數據的產生
.
................................................................................................................... 4
1.1.4 數據的量級
.
....................................................................................................................... 5
1.1.5 大數據的數據類型
.
........................................................................................................... 6
1.1.6 大數據的潛在價值
.
........................................................................................................... 8
1.1.7 大數據的挑戰
.
................................................................................................................... 8
1.2 大數據與商業智慧型
.
..........................................................................................................9
1.2.1 商業智慧型的概念
.
............................................................................................................... 9
1.2.2 商業智慧型的架構體系
.
..................................................................................................... 10
1.2.3 商業智慧型的核心技術
.
..................................................................................................... 11
1.2.4 商業智慧型的研究內容和發展方向
.
................................................................................. 13
1.2.5 商業智慧型與大數據的關係
.
............................................................................................. 14
1.2.6 商業智慧型與大數據的結合套用
.
..................................................................................... 15
1.3 大數據相關技術與套用概況
.
..........................................................................................17
1.3.1 大數據的相關技術
.
......................................................................................................... 17
1.3.2 大數據的套用概況
.
......................................................................................................... 19
1.4 大數據熱點問題與發展趨勢介紹
.
..................................................................................21
1.4.1 大數據的熱點問題
.
......................................................................................................... 21
1.4.2 大數據的發展趨勢
.
......................................................................................................... 23
1.5 練習
.
..............................................................................................................................25
參考文獻
.
...............................................................................................................................25
VIII 大數據導論:關鍵技術與行業套用最佳實踐
第2章 數據組織存儲技術
2.1 數據存儲概述
.
...............................................................................................................27
2.1.1 數據存儲介質
.
................................................................................................................. 27
2.1.2 數據存儲模式
.
................................................................................................................. 28
2.1.3 大數據存儲存在的問題
.
................................................................................................. 30
2.2 數據存儲技術研究現狀
.
.................................................................................................32
2.2.1 傳統關係型資料庫
.
......................................................................................................... 32
2.2.2 新興的數據存儲系統
.
..................................................................................................... 33
2.3 海量數據存儲的關鍵技術
.
.............................................................................................36
2.3.1 數據劃分
.
......................................................................................................................... 37
2.3.2 數據一致性與可用性
.
..................................................................................................... 37
2.3.3 負載均衡
.
......................................................................................................................... 38
2.3.4 容錯機制
.
......................................................................................................................... 39
2.3.5 虛擬存儲技術
.
................................................................................................................. 40
2.3.6 雲存儲技術
.
..................................................................................................................... 41
2.4 數據倉庫.......................................................................................................................42
2.4.1 數據倉庫的相關概念
.
..................................................................................................... 42
2.4.2 數據倉庫體系結構
.
......................................................................................................... 50
2.4.3 數據倉庫設計與實施
.
..................................................................................................... 51
2.4.4 數據抽取、轉換和裝載
.
................................................................................................. 54
2.4.5 在線上分析處理
.
................................................................................................................. 57
2.5 練習
.
..............................................................................................................................64
參考文獻
.
...............................................................................................................................64
第3章 NoSQL
3.1 NoSQL簡介
.
..................................................................................................................66
3.1.1 什麼是NoSQL
.
.................................................................................................................. 66
3.1.2 什麼是關係型資料庫
.
..................................................................................................... 68
3.1.3 NoSQL資料庫與關係型資料庫的比較
.
......................................................................... 68
3.2 NoSQL的三大基石
.
.......................................................................................................70
3.2.1 CAP
.
................................................................................................................................. 71
3.2.2 BASE
.
............................................................................................................................... 73
3.2.3 最終一致性
.
..................................................................................................................... 74
3.3 key-value資料庫
.
..........................................................................................................78
目 錄 IX
3.3.1 Redis................................................................................................................................ 78
3.4 Column-oriented資料庫
.
...............................................................................................80
3.4.1 Bigtable............................................................................................................................ 80
3.4.2 Apache
Cassandra
.
............................................................................................................ 81
3.4.3 HBase
.
............................................................................................................................... 81
3.5 圖存資料庫
.
...................................................................................................................89
3.5.1 Neo4j
.
............................................................................................................................... 89
3.6 文檔資料庫
.
...................................................................................................................93
3.6.1 CouchDB
.
.......................................................................................................................... 93
3.6.2 MongoDB
.
.......................................................................................................................... 95
3.7 NewSQL資料庫
.
............................................................................................................96
3.7.1 NewSQL資料庫簡介
.
....................................................................................................... 96
3.7.2 MySQL
Cluster
.
................................................................................................................. 97
3.7.3 VoltDB
.
.............................................................................................................................. 99
3.8 分散式快取系統
.
..........................................................................................................100
3.9 練習
.
............................................................................................................................103
參考文獻
.
.............................................................................................................................103
第4章 Hadoop和MapReduce
4.1 Hadoop簡介
.
...............................................................................................................104
4.2 Hadoop的體系結構
.
....................................................................................................105
4.2.1 HDFS的體系結構.......................................................................................................... 105
4.2.2 MapReduce的體系結構
.
................................................................................................ 106
4.2.3 其他組件
.
....................................................................................................................... 106
4.2.4 Hadoop的I/O操作
.
.......................................................................................................... 107
4.2.5 Hadoop與分散式開發
.
................................................................................................... 111
4.3 Hadoop的安裝與配置
.
.................................................................................................112
4.3.1 在Windows上安裝與配置Hadoop
.
................................................................................ 112
4.3.2 在Linux上安裝與配置Hadoop
.
...................................................................................... 120
4.4 Hadoop套用案例
.
....................................................................................................126
4.4.1 Last·fm
.
......................................................................................................................... 126
4.4.2 Facebook
.
........................................................................................................................ 128
4.5 MapReduce模型概述
.
.................................................................................................130
4.5.1 Map和Reduce函式
.
........................................................................................................ 132
X 大數據導論:關鍵技術與行業套用最佳實踐
4.5.2 MapReduce工作流程
.
.................................................................................................... 132
4.5.3 並行計算的實現
.
........................................................................................................... 136
4.6 實例分析:WordCount
.
...............................................................................................138
4.6.1 WordCount設計思路
.
..................................................................................................... 140
4.6.2 WordCount代碼
.
............................................................................................................. 141
4.6.3 過程解釋
.
....................................................................................................................... 144
4.7 練習
.
............................................................................................................................146
參考文獻
.
.............................................................................................................................146
第5章 數據查詢和分析的高級技術
5.1 SQL
on
Hadoop查詢技術
.
...........................................................................................148
5.1.1 Hive:基本的查詢技術
.
................................................................................................ 149
5.1.2 Hive的最佳化和升級
.
........................................................................................................ 153
5.1.3 實時互動式SQL查詢
.
.................................................................................................... 155
5.1.4 基於PostgreSQL的SQL
on
Hadoop
.
................................................................................ 157
5.2 數據分析的方法與技術
.
...............................................................................................158
5.2.1 基本分析方法
.
............................................................................................................... 159
5.2.2 高級分析方法
.
............................................................................................................... 164
5.2.3 可視化技術
.
................................................................................................................... 174
5.3 常用分析工具介紹
.
......................................................................................................179
5.3.1 統計分析工具
.
............................................................................................................... 179
5.3.2 數據挖掘工具
.
............................................................................................................... 182
5.3.3 可視化設計工具
.
........................................................................................................... 185
5.4 練習
.
............................................................................................................................188
參考文獻
.
.............................................................................................................................189
第6章 數據挖掘技術
6.1 數據挖掘簡介
.
.............................................................................................................190
6.2 關聯分析.....................................................................................................................192
6.2.1 基本概念
.
....................................................................................................................... 193
6.2.2 經典頻集算法
.
............................................................................................................... 194
6.2.3 FP
Growth
.
....................................................................................................................... 194
6.2.4 多層關聯規則
.
............................................................................................................... 195
6.2.5 多維關聯規則
.
............................................................................................................... 195
目 錄 XI
6.3 分類與回歸
.
.................................................................................................................195
6.3.1 基本概念
.
....................................................................................................................... 196
6.3.2 決策樹............................................................................................................................ 197
6.3.3 貝葉斯分類算法
.
........................................................................................................... 199
6.3.4 人工神經網路
.
............................................................................................................... 201
6.3.5 支持向量機
.
................................................................................................................... 204
6.3.6 其他分類方法
.
............................................................................................................... 206
6.3.7 回歸
.
............................................................................................................................... 209
6.4 聚類分析.....................................................................................................................211
6.4.1 基本概念
.
....................................................................................................................... 211
6.4.2 劃分方法
.
....................................................................................................................... 212
6.4.3 層次方法
.
....................................................................................................................... 213
6.4.4 基於密度的方法
.
........................................................................................................... 215
6.4.5 基於格線的方法
.
........................................................................................................... 215
6.4.6 基於模型的方法
.
........................................................................................................... 216
6.4.7 雙聚類方法
.
................................................................................................................... 217
6.5 離群點檢測
.
.................................................................................................................219
6.5.1 基本概念
.
....................................................................................................................... 219
6.5.2 基於統計的離群點檢測
.
............................................................................................... 220
6.5.3 基於距離的離群點檢測
.
............................................................................................... 220
6.5.4 基於偏差的離群點檢測
.
............................................................................................... 221
6.6 複雜數據類型挖掘
.
......................................................................................................222
6.7 數據挖掘的研究前沿和發展趨勢
.
................................................................................223
6.7.1 數據挖掘的套用
.
........................................................................................................... 224
6.7.2 數據挖掘中的隱私問題
.
............................................................................................... 225
6.7.3 數據挖掘的發展趨勢
.
................................................................................................... 225
6.8 練習
.
............................................................................................................................227
參考文獻
.
.............................................................................................................................227
第7章 數據分析語言R
7.1 R概述
.
.........................................................................................................................229
7.1.1 R是什麼
.
........................................................................................................................ 229
7.1.2 R的獲取與安裝
.
............................................................................................................. 230
7.1.3 R的使用
.
......................................................................................................................... 231
7.1.4 R包
.
................................................................................................................................ 233
XII 大數據導論:關鍵技術與行業套用最佳實踐
7.2 R的數據操作
.
.............................................................................................................234
7.2.1 數據結構
.
....................................................................................................................... 234
7.2.2 數據輸入
.
....................................................................................................................... 236
7.3 繪圖功能簡介
.
.............................................................................................................240
7.3.1 管理繪圖
.
....................................................................................................................... 240
7.3.2 繪圖函式
.
....................................................................................................................... 242
7.3.3 繪圖參數
.
....................................................................................................................... 244
7.3.4 基本圖形
.
....................................................................................................................... 246
7.4 R的初級數據分析
.
.......................................................................................................250
7.4.1 描述性統計分析
.
........................................................................................................... 252
7.4.2 頻數表和列聯表
.
........................................................................................................... 255
7.4.3 相關分析
.
....................................................................................................................... 258
7.4.4 t檢驗
.
.............................................................................................................................. 261
7.4.5 回歸分析
.
....................................................................................................................... 262
7.4.6 方差分析
.
....................................................................................................................... 268
7.5 R的高級數據分析
.
.......................................................................................................271
7.5.1 廣義線性模型
.
............................................................................................................... 271
7.5.2 聚類分析
.
....................................................................................................................... 274
7.5.3 判別分析
.
....................................................................................................................... 276
7.5.4 主成分分析
.
................................................................................................................... 277
7.5.5 因子分析
.
....................................................................................................................... 279
7.6 R在大數據處理中的套用
.
............................................................................................284
7.6.1 R處理大數據
.
................................................................................................................. 284
7.6.2 R與Hadoop互動............................................................................................................. 286
7.7 練習
.
............................................................................................................................287
參考文獻
.
.............................................................................................................................288
第8章 大數據用於預測和決策
8.1 利用分析技術作決策的發展歷史和展望
.
......................................................................289
8.1.1 利用分析技術作決策的發展歷程
.
............................................................................... 289
8.1.2 大數據決策的展望
.
....................................................................................................... 291
8.2 統計預測和決策概述
.
..................................................................................................292
8.2.1 統計預測的作用及方法
.
............................................................................................... 292
8.2.2 統計決策的概述及方法
.
............................................................................................... 294
8.3 大數據預測決策的關鍵
.
...............................................................................................295
目 錄 XIII
8.4 大數據分析用於商業的預測決策
.
................................................................................297
8.4.1 樂購——分析客戶消費信息
.
....................................................................................... 297
8.4.2 Netflix——了解客戶的真正需求
.
................................................................................ 297
8.4.3 哈拉斯——使用客戶數據
.
........................................................................................... 298
8.4.4 大通銀行——決策樹方法分析按揭數據
.
................................................................... 298
8.4.5 好事達——採用高級預測分析技術
.
........................................................................... 299
8.5 大數據時代給政府決策管理帶來的機遇與挑戰
.
...........................................................299
8.5.1 大數據提升政府的決策管理能力
.
............................................................................... 299
8.5.2 大數據浪潮中政府面臨的挑戰
.
................................................................................... 301
8.5.3 政府以變革來順應大數據時代
.
................................................................................... 303
8.6 大數據時代的跨界與顛覆
.
...........................................................................................305
8.6.1 大數據時代,顛覆浪潮席捲傳統產業
.
....................................................................... 305
8.6.2 大數據時代,全新的投資理念和巨大的投資機會
.
.................................................. 308
8.7 練習
.
............................................................................................................................309
參考文獻
.
.............................................................................................................................309
第9章 大數據與市場行銷
9.1 大數據時代的行銷模式創新
.
........................................................................................311
9.1.1 行銷模式的突出優勢
.
................................................................................................... 311
9.1.2 行銷模式的創新之舉
.
................................................................................................... 313
9.2 大數據時代下的網路化精準行銷
.
................................................................................315
9.2.1 精準行銷概述
.
............................................................................................................... 315
9.2.2 網路精準行銷模式
.
....................................................................................................... 316
9.3 大數據套用與商業機會
.
...............................................................................................318
9.3.1 車載信息服務數據在汽車保險業中的價值
.
............................................................... 318
9.3.2 RFID數據在零售製造業中的價值
.
.............................................................................. 319
9.3.3 大數據在醫療行業中的價值
.
....................................................................................... 319
9.3.4 社交網路數據在電信業及其他行業中的價值........................................................... 320
9.3.5 遙測數據在視頻遊戲中的價值
.
................................................................................... 321
9.4 大數據時代的商業變革
.
...............................................................................................321
9.4.1 大數據時代商業思維的變革
.
....................................................................................... 322
9.4.2 大數據時代管理的變革
.
............................................................................................... 323
9.4.3 大數據時代行銷的變革
.
............................................................................................... 324
9.4.4 大數據時代產業鏈的變革
.
........................................................................................... 325
9.5 大數據提高企業競爭力
.
...............................................................................................326
XIV 大數據導論:關鍵技術與行業套用最佳實踐
9.6 練習
.
............................................................................................................................329
參考文獻
.
.............................................................................................................................330
第10章 大數據套用案例
10.1 大數據在金融行業中的套用案例
.
..............................................................................331
10.1.1 摩根大通信貸市場分析
.
............................................................................................. 331
10.1.2 奧馬哈外匯風險敞口和實時數據分析
.
..................................................................... 332
10.1.3 瑞士銀行集合風險分析
.
............................................................................................. 333
10.1.4 滙豐銀行多維度的歷史數據分析和異常值快速分析
.
............................................ 334
10.1.5 對沖基金選擇Datawatch來觀察實時的市場流數據
.
................................................ 335
10.1.6 衍生品交易公司的交易活動的瀏覽與分析
.
............................................................. 336
10.1.7 跨國保險公司連線多個資料庫來進行風險分析
.
.................................................... 336
10.2 大數據在醫療行業中的套用案例
.
..............................................................................337
10.2.1 美國糖尿病患者分布情況分析
.
................................................................................. 337
10.2.2 醫療機構病房的實時監控
.
......................................................................................... 339
10.2.3 流行病學研究
.
............................................................................................................. 341
10.3 大數據在網際網路企業中的套用案例
.
...........................................................................344
10.3.1 亞馬遜.......................................................................................................................... 344
10.3.2 淘寶網.......................................................................................................................... 345
10.3.3 Facebook
.
...................................................................................................................... 346
10.4 大數據在影視行業中的套用案例
.
..............................................................................346
10.4.1 大數據分析節目收視特徵和用戶喜好
.
..................................................................... 346
10.4.2 大數據分析電影票房
.
................................................................................................. 348
10.5 練習
.
..........................................................................................................................350
參考文獻
.
.............................................................................................................................350
第11章 大數據套用的主流解決方案
11.1 Cloudera大數據解決方案
.
.........................................................................................352
11.2 Hortonworks大數據解決方案.....................................................................