大數據技術導論

大數據技術導論

《大數據技術導論》是2019年4月機械工業出版社出版的圖書,作者是程顯毅。

基本介紹

  • 書名:大數據技術導論
  • 作者:程顯毅
  • ISBN:9787111621713
  • 定價:39.0元
  • 出版社:機械工業出版社
  • 出版時間:2019年4月
  • 裝幀:平裝
  • 開本:16開
內容簡介,圖書目錄,

內容簡介

本書以面向套用、面向實戰為指導思想,緊扣企業技術人才培養的特點,在知識點講解和實驗中避免複雜的理論,使讀者能快速上手體驗、驗證大數據處理的魅力,以激發讀者的學習興趣。 本書覆蓋了大數據生命周期中的主要技術要點,全書共8章,第1章介紹大數據的產生和特點及思維的變革,第2章了解大數據生態系統,第3~7章按照大數據的生命周期,分別討論大數據採集與預處理、大數據管理、大數據分析、大數據可視化、大數據套用的基本原理和方法,第8章討論大數據安全面臨的挑戰。 本書可作為本科、高職院校大數據技術或數據科學課程的參考書或教材,也可供數據科學相關技術人員閱讀。

圖書目錄

前言
第1章 概論1
1.1 揭秘大數據1
1.1.1 大數據產生歷史必然1
1.1.2 大數據概念和特徵2
1.1.3 大數據生命周期3
1.1.4 大數據與物聯網、雲計算、人工智慧5
1.1.5 大數據時代的八個重大變革5
1.2 Linux系統概述7
1.2.1 Linux版本7
1.2.2 Linux系統結構7
1.2.3 文本編輯器vi9
1.2.4 檔案許可權解讀10
1.2.5 Linux系統常用命令11
習題112
實驗報告1 Linux實驗13
第2章 大數據生態系統15
2.1 認識Hadoop15
2.2 HDFS16
2.2.1 HDFS體系結構16
2.2.2 HDFS存儲原理17
2.2.3 HDFS常用操作20
2.3 MapReduce21
2.3.1 MapReduce邏輯結構21
2.3.2 MapReduce操作案例23
*2.4 Zookeeper24
習題225
實驗報告2 Hadoop實驗27
第3章 大數據採集與預處理29
3.1 數據29
3.1.1 數據是什麼29
3.1.2 數據分類29
3.1.3 度量和維度31
3.2 數據採集32
3.2.1 數據採集分類32
3.2.2 數據採集方法32
3.2.3 數據採集工具32
3.3 數據清洗34
3.3.1 數據清洗任務34
3.3.2 數據清洗過程34
3.4 數據變換35
3.4.1 規範化36
3.4.2 函式變換36
3.5 網路爬蟲37
3.5.1 爬蟲簡介37
*3.5.2 論壇爬蟲原始碼分析38
習題340
*實驗報告3 網路爬蟲41
第4章 大數據管理42
4.1 NoSQL42
4.1.1 NoSQL概述42
4.1.2 鍵值資料庫43
4.1.3 圖資料庫44
4.1.4 文檔資料庫45
4.1.5 列式資料庫47
4.1.6 雲資料庫47
4.2 HBase47
4.2.1 HBase模型47
4.2.2 HBase與傳統關係資料庫的對比分析49
4.2.3 HBase系統架構49
4.2.4 HBase常用Shell命令51
習題452
實驗報告4 HBase實驗53
第5章 大數據分析54
5.1 大數據分析概述54
5.1.1 數據分析原則54
5.1.2 大數據分析特點54
5.1.3 大數據分析流程55
5.1.4 數據分析師基本技能和素質57
*5.1.5 大數據分析難點58
*5.2 業務理解59
5.2.1 什麼是業務理解59
5.2.2 如何理解業務60
5.2.3 數據業務化61
5.3 數據認知63
5.3.1 數據預處理63
5.3.2 機率分析63
*5.3.3 對比分析67
*5.3.4 細分分析68
*5.3.5 交叉分析69
5.3.6 相關分析69
5.4 特徵工程72
5.4.1 特徵工程面臨的挑戰72
5.4.2 特徵選擇72
5.4.3 特徵提取72
5.4.4 指標設計73
5.5 數據建模76
5.5.1 模型分類76
5.5.2 決策樹77
5.5.3 關聯分析81
5.5.4 回歸分析82
5.5.5 聚類分析85
*5.5.6 k-鄰近分類算法KNN86
*5.6 通用計算引擎Spark86
5.6.1 Spark簡介86
5.6.2 Spark與Hadoop差異88
5.6.3 Spark適用場景88
5.6.4 Spark運行模式89
5.6.5 Spark常用術語89
5.7 大數據分析引擎Hive89
5.7.1 數據倉庫概念89
5.7.2 傳統數據倉庫的問題90
5.7.3 Hive特徵90
5.7.4 Hive系統架構90
5.7.5 Hive套用案例91
習題595
實驗報告5 Hive實驗101
第6章 大數據可視化102
6.1 數據可視化基本概念102
6.1.1 為什麼要數據可視化102
6.1.2 什麼是數據可視化103
6.1.3 數據可視化的作用104
6.1.4 數據可視化術語104
6.1.5 數據可視化三要素105
6.2 常用圖形105
6.2.1 餅圖(扇形圖)105
6.2.2 堆積柱形圖106
6.2.3 風玫瑰圖106
6.2.4 柱狀圖107
6.2.5 直方圖107
6.2.6 氣泡圖108
6.2.7 散點圖矩陣108
6.2.8 折線圖109
6.2.9 面積圖109
6.2.10 相關係數圖110
6.2.11 雷達圖110
6.2.12 箱線圖110
6.3 數據可視化設計111
6.3.1 數據可視化設計原則111
6.3.2 數據可視化=數據+設計+故事113
6.3.3 數據可視化圖形選擇建議113
6.4 數據可視化工具114
6.4.1 基本工具114
6.4.2 進階工具114
6.5 基於R語言可視化基礎117
6.5.1 基本繪圖命令117
6.5.2 ggplot2繪圖121
習題6128
*實驗報告6 可視化實驗129
第7章 大數據套用131
7.1 零售行業大數據131
7.1.1 沃爾瑪的購物籃分析131
7.1.2 農夫山泉用海量照片提升銷量132
7.2 交通大數據134
7.2.1 交通擁堵大數據分析134
7.2.2 預測起飛時間142
7.3 醫療大數據143
7.3.1 移動醫療與個人健康143
7.3.2 基因測序——精準治癌正在成為現實146
第8章 大數據安全150
8.1 大數據安全的重要意義150
8.2 大數據面臨的挑戰151
8.3 大數據的安全威脅152
8.3.1 大數據基礎設施安全威脅152
8.3.2 大數據存儲安全威脅152
8.3.3 大數據的隱私泄露153
8.3.4 大數據的其他安全威脅155
8.4 大數據與網路攻擊監測155
8.5 大數據安全分析155
8.6 大數據安全標準157
8.6.1 基礎標準類158
8.6.2 平台和技術類158
8.6.3 數據安全類159
8.6.4 服務安全類159
8.6.5 套用安全類160
附錄 大數據軟體安裝161
A.1 基礎環境準備161
A.2 安裝JDK162
A.3 安裝Hadoop162
A.4 安裝Zookeeper167
A.5 安裝HBase169
A.6 安裝Hive170
A.7 安裝Spark172
參考文獻175

相關詞條

熱門詞條

聯絡我們