大數據技術(2021年人民郵電出版社出版的圖書)

大數據技術(2021年人民郵電出版社出版的圖書)

本詞條是多義詞,共4個義項
更多義項 ▼ 收起列表 ▲

《大數據技術》是2021年人民郵電出版社出版的圖書。

基本介紹

  • 書名:大數據技術
  • 作者:薛志東,張雙雙,盧璟祥
  • 出版社:人民郵電出版社
  • 出版時間:2021年
  • 開本:128 開
  • 裝幀:平裝
  • ISBN:9787115567192
內容簡介,圖書目錄,作者簡介,

內容簡介

本書從技術實戰的角度,帶領讀者一步一步掌握大數據的相關技能。本書不僅提供相應命令、配置檔案,還提供模擬環境演示等,並儘可能通過案例和實操降低大數據學習的門檻,力求讓讀者學以致用。
本書主要內容包括大數據技術概述、Linux基礎與集群搭建、Hadoop集群配置、HDFS、MapReduce分散式編程、Hive大數據倉庫、HBase資料庫部署與操作、數據獲取與Flume套用、基於Spark的記憶體計算,以及利用大數據平台處理圖像及視頻。

圖書目錄

第1章 大數據技術概述 1
1.1 大數據的概念與基本特性 1
1.2 大數據處理流程 2
1.3 Hadoop大數據技術 3
1.3.1 Hadoop簡介 3
1.3.2 Hadoop的發行版本 5
1.4 實踐環境準備 7
習題 15
第2章 Linux基礎與集群搭建 16
2.1 Linux常用命令 16
2.1.1 用戶和用戶組 16
2.1.2 檔案與目錄 18
2.1.3 主機名 24
2.1.4 分區管理 25
2.2 網路配置 27
2.2.1 基本網路配置 27
2.2.2 集群網路配置 28
2.3 Linux集群配置 31
2.3.1 SSH免密碼登錄 31
2.3.2 Java環境安裝 33
2.3.3 MySQL服務 34
2.3.4 配置時鐘同步 35
2.4 快速配置Linux集群 37
2.4.1 導入虛擬機 37
2.4.2 快速配置 39
習題 42
第3章 Hadoop集群配置 43
3.1 Hadoop集群安裝 43
3.1.1 基礎環境準備 43
3.1.2 配置Java環境 49
3.1.3 安裝Hadoop 51
3.1.4 啟動Hadoop 58
3.2 Hadoop集群初始化和日誌查看 62
3.2.1 初始化檔案系統 62
3.2.2 集群的啟動與停止 62
3.2.3 查看日誌 63
習題 64
第4章 HDFS 65
4.1 HDFS簡介 65
4.1.1 HDFS的基本概念 65
4.1.2 HDFS檔案的讀取 66
4.1.3 HDFS檔案的寫入 67
4.1.4 HDFS 數據備份 68
4.2 HDFS基本命令 69
4.3 HDFS數據平衡最佳化 72
4.3.1 編程原則 73
4.3.2 平衡邏輯 73
4.3.3 數據平衡案例 74
4.4 HDFS API的使用方法 75
習題 81
第5章 MapReduce分散式編程
 82
5.1 MapReduce簡介 82
5.2 詞頻統計編程實例 83
5.3 MapReduce Shuffle過程開發 89
5.3.1 MapReduce數據類型 90
5.3.2 Partitioner負載平衡編程 90
5.3.3 Sort排序編程 92
5.3.4 Combiner減少中間數據編程 93
5.4 MapReduce的性能最佳化 94
5.4.1 Hadoop配置參數調優 94
5.4.2 使用合適的數據類型 95
5.4.3 基準性能測試工具 96
5.5 YARN數據處理框架 99
5.5.1 YARN常用命令 100
5.5.2 使用Web GUI監控實例 102
5.6 MapReduce實戰:繪製頻度分布 104
5.6.1 實戰概述 104
5.6.2 實戰步驟 104
5.6.3 源碼分析 109
習題 114
第6章 Hive大數據倉庫 115
6.1 Hive簡介 115
6.2 Hive安裝及配置 116
6.3 從創建資料庫到創建表 118
6.3.1 數據類型 118
6.3.2 創建資料庫 119
6.3.3 創建表 119
6.3.4 刪除表 121
6.3.5 修改表 121
6.4 數據查詢及自定義函式運算 123
6.4.1 HiveQL操作 123
6.4.2 JOIN語句 124
6.4.3 內置操作符和函式 125
6.5 Hive自定義函式編程 128
6.5.1 數據準備 128
6.5.2 編程實現 129
6.5.3 使用自定義函式 130
6.6 Hive實戰 132
6.6.1 數據準備 133
6.6.2 實戰步驟 133
習題 136
第7章 HBase資料庫部署與操作
 138
7.1 HBase簡介 138
7.1.1 HBase表 138
7.1.2 HBase基本知識 138
7.2 HBase的安裝 139
7.2.1 必要條件 139
7.2.2 安裝配置HBase 140
7.2.3 啟動HBase 142
7.3 HBase Shell操作 143
7.3.1 普通命令 145
7.3.2 DDL操作 146
7.3.3 DML操作 148
7.3.4 工具命令 150
7.3.5 複製命令 151
7.4 HBase客戶端API 151
7.4.1 CRUD操作 151
7.4.2 批量處理 155
7.4.3 行鎖 156
7.4.4 掃描 157
7.4.5 數據過濾 158
7.5 HBase客戶端選擇及配置最佳化 159
7.6 HBase與MapReduce集成 159
7.7 HBase集群監控 160
7.8 HBase實戰:公有雲網盤系統管理 164
7.8.1 部署公有雲網盤 165
7.8.2 網盤核心代碼分析 168
習題 171
第8章 數據獲取與Flume套用 172
8.1 公開數據資源獲取 172
8.2 使用網路爬蟲獲取數據 173
8.2.1 爬蟲的工作原理 173
8.2.2 爬蟲的搜尋策略 174
8.2.3 爬蟲的簡單套用 175
8.3 使用Flume獲取數據 177
8.3.1 Flume簡介 177
8.3.2 Flume運行機制 177
8.3.3 Flume安裝部署 179
8.3.4 Flume簡單套用 180
8.4 綜合案例 182
習題 186
第9章 基於Spark的記憶體計算 187
9.1 Spark簡介 187
9.2 Spark快速部署 188
9.2.1 Spark單機模式部署 188
9.2.2 Spark分散式集群部署 189
9.3 Spark程式 192
9.3.1 Spark Shell 192
9.3.2 在IDEA中編寫詞頻統計 193
9.4 Spark RDD編程 197
9.4.1 RDD簡介 197
9.4.2 RDD的操作運算元 198
9.4.3 RDD的持久化 204
9.5 Spark生態系統 205
9.5.1 Spark Core 206
9.5.2 Spark SQL 206
9.5.3 Spark Streaming 206
9.5.4 MLlib 206
9.5.5 GraphX 207
9.6 Spark套用案例 207
9.6.1 案例概述 207
9.6.2 代碼實現 208
9.6.3 運行結果 208
習題 209
第10章 利用大數據平台處理圖像
 210
10.1 圖像的基本概念 210
10.2 Hadoop處理圖像的問題與對策 211
10.2.1 Hadoop直接處理圖像存在
的問題 211
10.2.2 解決途徑 212
10.3 HIPI安裝與部署 212
10.4 使用HIPI進行圖像處理 214
10.5 HIPI工具hibDownload 222
10.5.1 編譯hibDownload 222
10.5.2 hibDownload的使用方法 222
10.5.3 hibDownload的工作原理 222
10.5.4 hibDownload的使用示例 230
習題 235
參考文獻 236

作者簡介

薛志東,博士,研究員,現在華中科技大學軟體學院工作,長期從事大數據相關教學與科研工作。先後講授多門本科生、研究生課程,承擔多項國家自然科學基金、湖北省自然科學基金、華為技術公司委託等重要項目。目前的研究主要涉及大數據處理相關領域等,如基於雲計算的圖像與視頻等信息處理技術、醫學與生物信息處理與分析、文本挖掘、深度學習、GPU開發等;同時對移動套用、康復遊戲、無人機、機器人套用軟體開發等有濃厚的興趣。

相關詞條

熱門詞條

聯絡我們