內容簡介
你是不是有這樣的困惑:“讀了不少關於大數據的書,發現這大數據既可以用於競選美國總統,又能夠預測禽流感,還能賣啤酒和尿不濕,又是圍棋高手……大數據好像什麼都能幹耶!可是咋整呀?大數據多大為大呀?大數據能賺錢不?……唉,怎么還是一頭霧水。”本書將為你答疑解惑。本書將展現作者在國內外大數據第一線的實戰經驗,面向不同行業的共性訴求來指導讀者大數據該怎么做,並闡明大數據發展的誤區。本書對大數據,從經濟價值、商業模式、框架搭建、數據挖掘、網路布置、安全防護、人員能力和後續運維管理多個維度,以及基礎設施、中間件、重點套用等多個層面進行系統闡述。幫助決策者將大數據概念落地,建立起理性的預期、合理的規劃,並最終收穫滿意的經濟效益。企業正面臨從傳統IT轉入大數據環境這一不可避免的範式變化,恰好為我國追趕已開發國家信息化建設帶來了契機。本書以企業共同關注的客戶關係管理(CRM)為實例談大數據落地,利用大數據採集、分析、決策以達到客戶維繫拓展、精準行銷和創新產品的目的,提出一整套從規劃到實施再到後續運維的技術路線和策略。並用一個已上線的實例將各部分內容串起來綜合展示,以解決大數據熱潮中的“老虎吃天,無處下爪”的窘境。這對於大數據的正確理解,
企業信息系統的建立,以及相應的商業模式改變都具有實際指導意義。
圖書目錄
第1篇 大數據導論 1
第1章 初識大數據 5
1.1 大數據概念談 7
1.1.1 大數據的定義 7
1.1.2 大數據發展現狀 10
1.1.3 大數據建設需求分析 10
1.1.4 大數據建設目標 11
1.1.5 機器學習與人工智慧 11
1.2 大數據的科學性 12
1.3 客戶關係管理 18
1.4 大數據的理解誤區 21
1.5 小結 29
第2章 大數據產業鏈初探 30
2.1 現金流與產業模式 31
2.2 國外IT企業 33
2.3 國內IT企業 35
2.4 開源軟體 36
2.5 小微企業 39
2.6 政策制定者 41
2.7 小結 43
第2篇 規劃篇 44
第3章 大數據體系規劃 47
3.1 大數據技術體系 48
3.1.1 大數據採集與預處理 49
3.1.2 大數據存儲 52
3.1.3 大數據計算 56
3.1.4 大數據分析 58
3.1.5 大數據治理 64
3.1.6 大數據安全保障 68
3.1.7 大數據套用支撐 73
3.2 大數據共性技術重點課題 76
3.2.1 開放域數據採集與共享 76
3.2.2 多源異構數據分析技術 78
3.2.3 異構計算模式集成技術 82
3.2.4 數據安全與隱私保護 86
3.3 大數據風險管控 90
3.3.1 企業大數據建設風險分析 90
3.3.2 大數據安全標準體系框架 90
3.3.3 大數據安全標準規劃 91
3.4 小結 94
第4章 大數據技術要求 95
4.1 大數據總體架構 98
4.1.1 背景概述 98
4.1.2 現狀分析 98
4.1.3 總體目標 99
4.1.4 技術架構 100
4.1.5 實施指引 102
4.2 採集要求 104
4.2.1 功能架構 104
4.2.2 技術架構 105
4.2.3 處理技術 106
4.2.4 場景套用 111
4.2.5 接口協定 113
4.2.6 接口約定 113
4.2.7 性能指標 116
4.3 基礎能力要求 117
4.3.1 總體概述 117
4.3.2 基礎框架 119
4.3.3 能力開放 135
4.3.4 性能指標 141
4.4 核心處理能力要求 142
4.4.1 總體概述 142
4.4.2 數據模型 149
4.4.3 數據處理 152
4.4.4 數據質量 155
4.4.5 系統性能 158
4.5 需求與項目管理 160
4.6 小結 161
第3篇 實施篇 163
第5章 大數據並行計算框架 166
5.1 並行計算技術 167
5.1.1 基本命題 167
5.1.2 設計模式分類 170
5.1.3 關鍵技術點 173
5.2 MapReduce計算技術 177
5.2.1 處理模型設計原則 177
5.2.2 主要功能與技術設計 178
5.3 Hadoop MapReduce設計與工作模式 181
5.3.1 程式執行模式 181
5.3.2 作業調度模式 183
5.3.3 執行框架及流程設計 186
5.4 Hadoop MapReduce組件接口 187
5.4.1 InputFormat 187
5.4.2 InputSplit 188
5.4.3 RecordReader 189
5.4.4 Mapper 190
5.4.5 Combiner 192
5.4.6 Partitioner 193
5.5 小結 193
第6章 大數據分散式處理系統 194
6.1 Hadoop系統平台 195
6.1.1 分散式結構設計 195
6.1.2 Hadoop生態系統 196
6.2.1 系統架構 200
6.2.2 可靠性設計 203
6.2.3 檔案存儲組織 205
6.2.4 數據讀寫過程 207
6.2.5 檔案系統操作 209
6.3 HBase分散式資料庫 211
6.3.1 技術特點 211
6.3.2 系統結構設計 212
6.3.3 數據存儲模型 213
6.3.4 查詢模式 215
6.3.5 數據表設計 217
6.3.6 RegionServer配置 218
6.4 小結 222
第7章 大數據存儲 223
7.2 數據存儲接口 225
7.2.1 對象存儲 225
7.2.2 裸設備存儲 226
7.2.3 塊存儲 227
7.3 存儲集群架構 228
7.3.1 共享與非共享型 228
7.3.2 對稱與非對稱式 229
7.3.3 自助式與服務式 230
7.3.4 SPI與SFI 231
7.3.5 串列方式與並行方式 232
7.4 數據存儲技術本質 233
7.4.1 三網統一理論 234
7.4.2 並行概念理解 236
7.4.3 集群分層架構 238
7.5 數據分級存儲探討 238
7.5.1 超融合 238
7.5.2 冷數據 239
7.5.3 平台架構 241
7.5.4 套用場景 248
7.6 小結 249
第8章 機器學習與人工智慧 250
8.1 數據挖掘 251
8.1.1 數據分類採集 253
8.1.2 模式類型設計 258
8.1.3 模式價值分析 261
8.1.4 系統關鍵技術 262
8.2 機器學習 264
8.2.1 算法分類 265
8.2.2 合適算法選擇 265
8.2.3 程式開發設計 266
8.3 人工智慧 267
8.3.1 模式定義 268
8.3.2 人工智慧舉例 269
8.4 小結 276
第4篇 運維篇 277
第9章 大數據集群網路架構 280
9.1 現有數據中心網路架構 281
9.1.1 架構分析 281
9.1.2 存在弊端 281
9.2 大數據網路設計要點 283
9.2.1 大數據業務分析 283
9.2.2 大數據網路流量模型 284
9.2.3 大數據網路新需求 286
9.3 新興網路技術 287
9.3.1 SDN 287
9.3.2 NFV 291
9.3.3 VXLAN 292
9.3.4 InfiniBand 295
9.4 小結 297
10.1 大數據安全挑戰 299
10.2 基礎設施安全 300
10.2.1 存在威脅 300
10.2.2 虛擬化安全 301
10.3 數據安全 302
10.3.1 數據採集安全技術 302
10.3.2 數據存儲安全技術 303
10.3.3 數據挖掘安全技術 307
10.3.4 數據發布安全技術 309
10.4 大數據平台Hadoop安全 311
10.4.1 Hadoop安全問題概述 311
10.4.2 Kerberos概述 313
10.4.4 Hadoop安全機制 314
10.4.5 Kerberos的優缺點 316
10.5 小結 317
第11章 大數據備份與恢復 318
11.1 數據備份與恢復 319
11.1.1 數據備份 319
11.1.2 數據恢復 323
11.2.1 概述 324
11.2.2 HDFS數據備份策略 328
11.3 小結 330
第12章 大數據環境的監管 331
12.1 概述 332
12.2 大數據集群配置管理 333
12.3 大數據集群監控 337
12.3.1 大數據監控特點 337
12.3.2 監控系統 338
12.3.3 監控系統建立途徑 341
12.3.4 商業監控軟體 342
12.3.5 開源監控軟體 343
12.3.6 傳統網路管理軟體:NetEagle 352
12.3.7 統一管理平台:UMP 354
12.4 大數據日誌分析 356
12.5 小結 359
第13章 大數據的運維方法 361
13.1 運維服務 362
13.2 運維流程模型 363
13.2.1 故障排查 363
13.2.2 緊急事故管理 366
13.2.3 處理連鎖故障 368
13.3 運維人員 371
13.3.1 需要具備的能力 371
13.3.2 任務內容 372
13.4 自動化運維 374
13.4.1 自動化運維價值 374
13.4.2 自動化運維工具 376
13.5 小結 379
第5篇 實例篇 380
第14章 Oracle MoviePlex 大數據規劃 383
14.1 案例概述 384
14.1.1 案例背景 386
14.1.2 架構規劃 387
14.2 大數據組件介紹 395
14.2.1 Cloudera的CDH 396
14.2.2 Cloudera管理器 397
14.2.3 Oracle大數據連線器 398
14.2.4 Oracle大數據載入器 398
14.2.5 Oracle大數據整合器 400
14.2.6 Oracle R語言連線器 400
14.2.7 Oracle NoSQL資料庫 401
14.3 小結 402
第15章 Oracle MoviePlex大數據實施 404
15.1 環境準備 405
15.1.1 MoviePlex環境部署 405
15.1.2 MoviePlex環境初始化 409
15.2 案例演示 413
15.2.1 配置Oracle Big Data SQL 413
15.2.2 建立存放在HDFS日誌表 414
15.2.3 HIVE訪問HDFS和NoSQL 416
15.2.4 Oracle Big Data SQL新功能 418
15.2.5 Oracle Big Data安全策略 420
15.2.6 Oracle分析SQL 422
15.2.7 Oracle SQL模式匹配 423
15.2.8 創建匯總數據集 425
15.2.9 Oracle 12c SQL解析特點 426
15.3 推薦系統 428
15.3.1 百萬美元大獎賽 428
15.3.2 技術細節 429
15.4 小結 433
第16章 Oracle MoviePlex大數據運維 434
16.1 集群 436
16.1.1 Hadoop 436
16.1.2 ZooKeeper 439
16.2 檔案系統和非關係資料庫 442
16.2.1 HDFS 443
16.2.2 HBase 444
16.2.3 NoSQL 446
16.2.4 Kafka 449
16.3 中間件 451
16.3.1 WebLogic 451
16.3.2 HUE 454
16.3.3 Solr 456
16.4 數據轉換 458
16.4.1 Hive 458
16.4.2 Impala 460
16.4.3 Sqoop2 462
16.5 資源整合調度 463
16.5.1 Oozie 463
16.5.2 YARN 464
16.6 小結 467
第6篇 明天的大數據 468
第17章 大數據面臨的挑戰 470
17.1 可靠性挑戰 472
17.2 可擴展性挑戰 473
17.3 系統安全挑戰 473
17.4 節能降耗 475
17.5 算法挑戰 477
17.6 測不準原理 477
17.7 小結 478
第18章 大數據套用 479
18.1 客戶關係與供求管理 480
18.2 科學研究 483
18.3 教育大數據套用 485
18.4 區塊鏈與加密貨幣 490
18.5 小結 493
結束語 494
附錄A 安裝Cloudera Apache Hadoop 502
A.1 環境準備 504
A.1.1 Cloudera Manager架構 504
A.1.2 伺服器環境準備 504
A.1.3 安裝介質下載 505
A.1.4 本地yum源搭建 505
A.2 安裝Cloudera Manager Server 506
A.3 部署Hadoop集群 507
A.4 安裝結果 508
附錄B 在Matlab中套用 MapReduce 509
B.1 datastore簡介 510
B.2 搜尋需要的項 511
B.3 MapReduce簡介 512
B.4 如何運用MapReduce進行運算 512
B.5 MapReduce中對於鍵的使用 514
B.6 使用mapreduce計算分組指標 514
B.7 輸出結果可視化 516
附錄C 從AlphaGo到 AlphaZero 518
參考文獻 526