大數據技術和套用

大數據技術和套用

《大數據技術和套用》是清華大學出版社於2020年1月1日出版的一本圖書,主編是陳建平、陳志德、席進愛,副主編徐安麗、劉春鑫、姚一飛、李春靜、包建國、王斌、李金湖。

基本介紹

  • 書名:大數據技術和套用
  • 作者:主編 陳建平 陳志德 席進愛,副主編 徐安麗 劉春鑫 姚一飛 李春靜 包建國 王斌 李金湖
  • 出版社:清華大學出版社
  • 出版時間:2020年1月1日
  • 定價:59.00 元
  • ISBN:9787302542193
圖書內容,作者簡介,圖書目錄,

圖書內容

這是一本大數據技術入門的簡明教材。全書理論和實踐相結合,以套用實戰為主,深入淺出地講解每個知識點,對每個套用實驗按學習習慣,分步驟講解,每個步驟都有文字說明和效果截圖,使讀者能清晰地知曉動手實操的效果和錯誤之處。
全書分為9章,全面介紹了大數據技術的相關基礎知識、HDFS和資料庫、採集傳輸工具、挖掘分析算法、Spark計算框架、可視化、大數據安全、大數據套用等內容,著重介紹了HDFS分散式檔案系統、NoSQL等各種資料庫、數據倉庫Hive,以及數據採集分析技術,並配套了詳細的實驗教程以及練習題。本書適合作為高等院校計算機、軟體工程、大數據專業高職、本科生的教材,同時可供企業中從事大數據開發的工程師和科技工作者參考。

作者簡介

陳建平,資深講師,技術總監,10年相關項目經歷。長期從事大數據相關研究分析工作,曾擔任IBM(上海)高級數據分析經理。

圖書目錄

第1章了解大數據 1
1.1大數據處理的基礎技術 1
1.1.1大數據相關概念 1
1.1.2大數據處理流程 2
1.1.3大數據處理基礎技術 3
1.2主流大數據技術 6
1.2.1主流大數據技術各階段 6
1.2.2Hadoop生態系統 6
1.2.3Hadoop核心組件簡介 7
1.3大數據平台解決方案 8
1.3.1Cloudera 8
1.3.2Hortonworks 8
1.3.3MapR 9
1.3.4FusionInsight 9
1.3.5TranswarpDataHub 10
1.4大數據發展現狀和趨勢 11
1.4.1大數據市場規模 11
1.4.2國內大數據發展面臨的問題 11
1.4.3大數據發展趨勢 11
1.5習題 12
第2章大數據基礎軟體 14
2.1Linux基礎介紹 14
2.1.1用戶和用戶組管理 14
2.1.2檔案和目錄操作 19
2.1.3文本編輯器 23
2.2Java基礎介紹 25
2.2.1Java基礎 25
2.2.2編程開發 29
2.2.3Java開發環境配置 29
2.3SQL語言基礎介紹 32
2.3.1資料庫基礎 32
2.3.2SQL簡介 34
2.3.3SQL語法 34
2.3.4SQL基礎語法 36
2.4實驗一:在Linux中安裝和使用Java 38
2.4.1本實驗目標 38
2.4.2本實驗知識點 38
2.4.3項目實施過程 39
2.4.4常見問題 45
2.5實驗二:在Linux中安裝和使用MySQL 46
2.5.1本實驗目標 46
2.5.2本實驗知識點 46
2.5.3項目實施過程 47
2.5.4常見問題 54
2.6習題 55
第3章大數據採集 59
3.1大數據採集技術介紹 59
3.2常見採集工具和廠商 60
3.2.1搜尋引擎查看 60
3.2.2工具分類 61
3.3八爪魚採集器介紹 63
3.3.1八爪魚採集原理 63
3.3.2八爪魚實現的功能 63
3.4爬山虎採集器介紹 65
3.4.1爬山虎介紹 65
3.4.2產品特點和核心技術 65
3.4.3軟體界面 66
3.5流數據採集工具Flume 68
3.5.1Flume背景 68
3.5.2FlumeNG基本架構 68
3.5.3Flume案例分析 70
3.6數據傳輸工具Sqoop介紹 73
3.6.1Sqoop工具介紹 73
3.6.2Sqoop2特性 74
3.6.3Sqoop案例 76
3.6.4Sqoop問題集 77
3.7實驗三:Sqoop的安裝配置及使用 78
3.7.1本實驗目標 78
3.7.2本實驗知識點 79
3.7.3項目實施過程 79
3.7.4常見問題 87
3.8實驗四:Kafka的安裝、配置及使用 90
3.8.1本實驗目標 90
3.8.2本實驗知識點 90
3.8.3項目實施過程 91
3.8.4常見問題 97
第4章大數據存儲 99
4.1資料庫和數據倉庫 99
4.1.1資料庫類型簡介 99
4.1.2數據倉庫介紹 101
4.2.1HDFS介紹 103
4.2.2HDFS體系結構 106
4.3分散式分析引擎Kylin介紹 108
4.3.1Kylin簡介 108
4.3.2Kylin基本原理和架構 109
4.3.3Kylin的最新特性 114
4.4大數據倉庫Hive 115
4.4.1Hive簡介 115
4.4.2Hive體系結構 116
4.4.3Hive數據存儲模型 118
4.4.4Hive套用場景 121
4.5NoSQL資料庫 122
4.5.1NoSQL簡介 122
4.5.2NoSQL在系統架構中的套用 125
4.6鍵-值存儲資料庫Memcached、Redis 128
4.6.1Redis基本介紹 128
4.6.2Redis命令總結 128
4.7面向文檔資料庫MongoDB介紹 130
4.7.1MongoDB簡介 130
4.7.2MongoDB深入剖析 131
4.8實驗五:Hadoop的安裝、配置及HDFS使用 133
4.8.1本實驗目標 133
4.8.2本實驗知識點 133
4.8.3項目實施過程 133
4.8.4常見問題 147
4.9實驗六:Redis資料庫的安裝與使用 148
4.9.1本實驗目標 148
4.9.2本實驗知識點 148
4.9.3項目實施過程 148
4.9.4常用命令及配置檔案介紹 154
4.10實驗七:HBase的安裝和配置 158
4.10.1本實驗目標 158
4.10.2本實驗知識點 159
4.10.3項目實施過程 159
4.10.4常見問題 165
4.11習題 167
第5章Spark記憶體計算框架 170
5.1Spark簡介 170
5.2Spark技術原理 173
5.2.1Spark與Hadoop的對比 173
5.2.2Spark運行架構 175
5.2.3RDD基本概念 177
5.3SparkSQL介紹 181
5.4SparkStreaming實時處理技術 183
5.5SparkMLlib數據挖掘庫 184
5.5.1機器學習定義 184
5.5.2SparkMLlib的優勢 187
5.5.3SparkMLlib支持的機器學習類型 187
5.6SparkGraphX圖處理技術 188
5.7Spark編程實例 190
第6章大數據分析挖掘 194
6.1大數據分析概述 194
6.1.1數據分析與數據挖掘的區別 194
6.1.2常見數據分析挖掘工具 195
6.1.3數據挖掘十大算法介紹 197
6.2分類算法概述 199
6.2.1分類預測常見算法 199
6.2.2分類預測實現過程 199
6.3決策樹算法介紹 201
6.3.1決策樹的定義 201
6.3.2決策樹的優缺點 202
6.3.3決策樹的發展 202
6.3.4決策樹的構造流程 202
6.3.5決策樹的相關指標 203
6.3.6常見決策樹算法 204
6.4推薦算法介紹 208
6.4.1常用推薦算法介紹 208
6.4.2主要推薦方法對比 210
6.5Apriori算法介紹 211
6.5.1Apriori算法 211
6.5.2頻繁項集的評估標準 211
6.5.3Apriori算法思想 212
6.5.4Apriori算法流程 213
6.5.5Apriori算法小結 214
第7章大數據可視化 215
7.1大數據可視化概述 215
7.1.1數據可視化概述 215
7.1.2數據可視化流程 216
7.1.3數據可視化展現形式 217
7.2大數據可視化工具概述 229
7.3Tableau大數據可視化技術簡介 230
7.4PowerBI大數據可視化技術簡介 231
7.5實驗八:ECharts的安裝與使用 232
7.5.1本實驗目標 232
7.5.2本實驗知識點 232
7.5.3項目實施過程 232
7.5.4常見問題 243
第8章大數據安全 246
8.1大數據安全的挑戰與對策 246
8.2數據管理安全 248
8.3數據安全分析 250
第9章大數據套用 253
9.1企業大數據套用 253
9.1.1中國企業大數據現狀 253
9.1.2企業大數據套用需求 254
9.2網際網路大數據 256
9.2.1網際網路行業擁有大數據的關鍵因素 256
9.2.2大數據方案後的價值體現 256
9.3零售大數據 258
9.4醫療大數據 262
9.5大數據未來展望 263
9.6大數據和雲計算的關係 265
9.6.1雲計算的特徵 265
9.6.2雲計算與大數據的關係 265
9.6.3雲計算及其分散式結構是重要途徑 266
9.6.4雲資料庫的必然 267
9.6.5雲資料庫需滿足的要求 267
9.6.6雲計算能為大數據帶來的變化 268
參考文獻 269

相關詞條

熱門詞條

聯絡我們