大數據技術與套用(2020年西南交通大學出版社出版書籍)

本詞條是多義詞,共3個義項
更多義項 ▼ 收起列表 ▲

《大數據技術與套用》是2020年6月1日西南交通大學出版社出版的書籍,作者是侯勇。

基本介紹

  • 書名:大數據技術與套用
  • 作者:侯勇
  • 出版時間:2020年6月1日
  • 定價:46 元
  • ISBN:9787564374341
內容簡介,圖書目錄,

內容簡介

本書首先講述大數據概念、特點、價值、重要性,接著介紹Hadoop、HBase、Hive 、Spark,然後詳細講解大數據技術在機器學習中的套用,包括大數據基礎理念和常見工具,大數據處理流程、方法和技術等 。本書主要作為高等院校計算機專業、信息管理專業、經濟類專業、管理類專業相關本科生專業基礎課的教材,也可以作為幹部培訓、職業技術教育以及職業培訓機構的雲計算與大數據分析技術專業訓練教材。

圖書目錄

大數據技術篇
第1章 Hadoop 3
1.1 大數據概述 3
1.2 大數據解決方案 5
1.3 Hadoop簡介 7
1.4 環境設定 8
1.5 多節點集群安裝 15
1.6 HDFS概述 22
1.7 HDFS操作 24
1.8 命令參考 25
1.9 MapReduce 26
1.10 MapReduce在Hadoop上的實現 32
1.11 MapReduce分區器 39
1.12 Combiner 49
1.13 Hadoop管理 56
1.14 應用程式接口 59
1.15 HadoopStreaming 64
第2章 HBase 69
2.1 HBase概述 69
2.2 HBase的架構 73
2.3 HBase的安裝 75
2.4 HBase Shell 80
2.5 HBase的常用命令 82
2.6 Admin API 83
2.7 創建表 84
2.8 列表 86
2.9 禁用表 88
2.10 啟用表 91
2.11 Describe與Alter命令 94
2.12 Exists命令 100
2.13 刪除表 102
2.14 Exit命令 105
2.15 客戶端API 107
2.16 創建數據 110
2.17 更新數據 114
2.18 讀取數據 117
2.19 刪除數據 120
2.20 掃描 123
2.21 Count和Truncate 126
2.22 安全 126
第3章 Hive 128
3.1 Hive概述 128
3.2 安裝 130
3.3 數據類型 133
3.4 創建資料庫 135
3.5 刪除資料庫 137
3.6 創建表 139
3.7 更改表 143
3.8 刪除表 149
3.9 分區 151
3.10 內置運算符 152
3.11 HiveQL查詢語句 155
3.12 內置函式 165
3.13 查看和索引 168
第4章 Spark 171
4.1 Spark概述 171
4.2 RDD 172
4.3 Spark的安裝 175
4.4 Spark 核心編程 176
4.5 Spark的部署 181
4.6 Spark高級編程 184
4.7 Spark SQL簡介 186
4.8 Spark SQL DataFrame 187
4.9 Spark SQL的數據源 190
大數據技術套用篇
第5章 基本統計 193
5.1 相關性 193
5.2 假設檢驗 194
5.3 累積器 196
5.4 摘要統計 197
5.5 分層抽樣 198
5.6 流數據顯著性檢驗 199
5.7 隨機數據生成 201
5.8 核密度估計 202
第6章 數據源與管道 204
6.1 數據源 204
6.2 ML管道 204
第7章 提取、轉換和選擇特徵 212
7.1 術語頻率-逆文檔頻率 212
7.2 Word2Vec 216
7.3 CountVectorizer 217
7.4 FeatureHasher 219
7.5 StandardScaler 221
7.6 Normalizer 223
7.7 ChiSqSelector 226
7.8 ElementwiseProduct 228
第8章 特徵轉換器 230
8.1 Tokenizer 230
8.2 StopWordsRemover 231
8.3 Binarizer 233
8.4 PCA 234
8.5 N-Gram 237
參考文獻 239

相關詞條

熱門詞條

聯絡我們