《hadoop大數據開發基礎項目化教程(陳秀玲)》是化學工業出版社再2021年出版的圖書。作者是陳秀玲,王德選,陳井霞 。本書可作為高職高專院校大數據技術及套用等計算機相關專業的教材使用,也適用於套用型本科院校數據科學與大數據、大數據管理與套用等專業的師生使用。
基本介紹
- 中文名:hadoop大數據開發基礎項目化教程(陳秀玲)
- 作者:陳秀玲、陳井霞 、王德選
- 出版社:化學工業出版社
- ISBN:9787122387110
內容簡介,圖書目錄,作者簡介,
內容簡介
Hadoop是當前熱門的大數據處理與分析平台。《Hadoop大數據開發基礎項目化教程》將大數據平台相關內容劃分為8個項目,分別是大數據時代、Hadoop基礎環境、Hadoop環境搭建、分散式存儲HDFS、MapReduce分散式編程、Hadoop數據倉庫Hive、Hadoop資料庫HBas、協調系統Zookeeper,每個項目按照知識點拆解分為相關的多個任務,每個任務都有詳細的操作步驟實現,由淺入深、將理論和實踐相融合,循序漸進地介紹Hadoop集群的相關知識點,使讀者能夠學以致用,融會貫通,快速理解和掌握。
本書可作為高職高專院校大數據技術及套用等計算機相關專業的教材使用,也適用於套用型本科院校數據科學與大數據、大數據管理與套用等專業的師生使用,還可供大數據零基礎的初學者入門和進階、大數據相關領域的廣大程式設計人員參考。
圖書目錄
項目1 大數據時代 1
任務1 認識大數據 1
1.1.1 大數據定義 2
1.1.2 大數據核心特徵 2
1.1.3 大數據體系架構 3
任務2 大數據關鍵技術 4
1.2.1 大數據技術分類 4
1.2.2 大數據存儲基礎 5
1.2.3 大數據與雲計算、物聯網 6
任務3 大數據的套用 6
1.3.1 大數據典型套用—— 霍廷 6
1.3.2 大數據典型套用——亞馬遜 7
1.3.3 大數據典型套用——城管通 7
1.3.4 大數據典型套用——智慧型公交站牌 7
1.3.5 大數據典型套用——金融分析 7
1.3.6 大數據典型套用——醫療決策 7
1.3.7 大數據典型套用——農業防稻瘟 8
1.3.8 大數據典型套用——社會治理 8
1.3.9 大數據典型套用——疫情阻擊 8
習題 8
項目2 Hadoop基礎環境 10
任務1 熟悉Linux 10
2.1.1 Linux簡介 11
2.1.2 Linux發行版 11
2.1.3 Linux檔案 11
2.1.4 Linux常用命令套用 12
任務2 認識Hadoop 15
2.2.1 Hadoop簡介 15
2.2.2 Hadoop發展史 16
2.2.3 Hadoop發行版本 16
2.2.4 Hadoop基本概念 17
2.2.5 Hadoop的優點 18
2.2.6 Hadoop基本使用 19
任務3 準備Linux環境 20
2.3.1 虛擬機簡介 20
2.3.2 VMware虛擬機 20
2.3.3 安裝虛擬機 20
任務4 Hadoop基礎環境搭建 21
2.4.1 Hadoop核心知識 21
2.4.2 Hadoop生態社區 22
2.4.3 安裝主機master 24
2.4.4 拍快照保留歷史數據 28
2.4.5 更改主機名稱 29
2.4.6 設定已分享檔案夾 32
2.4.7 安裝Java並配置環境 35
任務5 Notepad 實現共享編輯 37
2.5.1 Notepad 簡介 37
2.5.2 下載並編輯Notepad 37
2.5.3 實現遠程連線Linux 39
習題 43
項目3 Hadoop環境搭建 45
任務1 Hadoop單節點環境搭建 45
3.1.1 單節點基礎 46
3.1.2 單節點安裝 46
3.1.3 單節點配置環境及檢驗 47
任務2 Hadoop偽分散式環境搭建 49
3.2.1 偽分散式環境基礎 49
3.2.2 偽分散式環境安裝 51
3.2.3 偽分散式環境配置及測試 53
任務3 Hadoop完全分散式環境搭建 60
3.3.1 完全分散式環境基礎 61
3.3.2 完全分散式環境安裝 62
3.3.3 完全分散式環境配置 72
任務4 使用Xshell遠程終端模擬器 78
3.4.1 Xshell簡介 78
3.4.2 Xshell特點 78
3.4.3 Xshell下載和安裝 78
3.4.4 Xshell遠程連線虛擬機 79
任務5 使用MobaXterm終端軟體 83
3.5.1 MobaXterm簡介 83
3.5.2 MobaXterm特點 84
3.5.3 MobaXterm下載並安裝 84
3.5.4 使用MobaXterm連線虛擬機 85
習題 88
項目4 分散式存儲HDFS 90
任務1 HDFS的組成與工作機制 90
4.1.1 HDFS簡介 91
4.1.2 機架感知與副本冗餘存儲策略 91
4.1.3 HDFS體系結構 92
4.1.4 NameNode工作原理 93
4.1.5 查看NameNode格式化後的數據檔案 94
任務2 HDFS數據操作 96
4.2.1 HDFS shell簡介 96
4.2.2 HDFS用戶命令 97
4.2.3 啟動並查看HDFS進程 97
4.2.4 藉助瀏覽器查看 98
4.2.5 HDFS管理員命令 99
4.2.6 HDFS完成數據檔案的簡單操作 100
4.2.7 使用HDFS管理員命令完成相關服務操作 102
任務3 創建HDFS項目 103
4.3.1 IDEA開發工具使用 103
4.3.2 IDEA安裝 104
4.3.3 藉助IDEA創建Maven項目 107
任務4 HDFS的檔案讀寫 109
4.4.1 HDFS檔案讀寫流程 110
4.4.2 啟動Hadoop進程 111
4.4.3 客戶端向HDFS寫檔案 112
4.4.4 客戶端向HDFS讀檔案 114
習題 115
項目5 MapReduce分散式編程 117
任務1 認識MapReduce 117
5.1.1 MapReduce介紹 117
5.1.2 Wordcount程式體驗 118
任務2 MapReduce編程模型 124
5.2.1 MapReduce 設計構思和框架結構 124
5.2.2 MapReduce 編程規範 126
5.2.3 編寫自己的單詞統計程式 126
任務3 MapReduce案例實戰—— 去重 137
5.3.1 數據去重思想 137
5.3.2 MapReduce數據去重程式編寫 138
任務4 MapReduce案例實戰—— 排序 145
5.4.1 MapReduce數據排序 145
5.4.2 Shuffle工作原理 146
任務5 MapReduce案例實戰—— Map端join 153
5.5.1 Map端join的使用場景 154
5.5.2 Map端join的執行流程 154
任務6 MapReduce最佳化 162
5.6.1 資源相關參數 162
5.6.2 容錯相關參數 163
5.6.3 效率與穩定性參數 163
習題 163
項目6 Hadoop數據倉庫Hive 165
任務1 Hive環境搭建 165
6.1.1 Hive簡介 166
6.1.2 Hive優點 166
6.1.3 安裝Mysql 166
6.1.4 Mysql基本套用 167
6.1.5 安裝Hive 173
6.1.6 配置Hive環境 174
6.1.7 啟動Hive 177
任務2 Hive資料庫基本操作 178
6.2.1 資料庫相關知識 179
6.2.2 資料庫操作 179
任務3 Hive表基本操作 181
6.3.1 表的相關知識 181
6.3.2 Hive內置函式 182
6.3.3 Hive元數據存儲 182
6.3.4 表操作 184
習題 189
項目7 Hadoop資料庫HBase 190
任務1 HBase安裝配置基礎 190
7.1.1 HBase簡介 191
7.1.2 HBase發展歷史 191
7.1.3 HBase基本概念 191
7.1.4 HBase特點 192
7.1.5 HBase安裝前的準備 193
任務2 HBase多種模式安裝 195
7.2.1 HBase安裝模式 195
7.2.2 HBase常用命令 195
7.2.3 HBase偽分散式安裝及配置 196
7.2.4 HBase完全分散式安裝及配置 201
任務3 HBase創建用戶表 205
7.3.1 HBase數據模型 205
7.3.2 HBase存儲機制 206
7.3.3 HBase存儲架構 206
7.3.4 HBase表的基本命令 207
7.3.5 創建用戶表 207
任務4 操作表信息 209
7.4.1 對表的操作命令 209
7.4.2 增加表記錄 209
7.4.3 查看錶信息 210
7.4.4 修改表結構 211
7.4.5 更新表記錄 213
7.4.6 刪除記錄/表 214
習題 215
項目8 協調系統Zookeeper 216
任務1 Zookeeper基礎知識 216
8.1.1 Zookeeper概述 217
8.1.2 Zookeeper基本概念 217
8.1.3 Zookeeper套用場景 218
任務2 Zookeeper安裝基礎 218
8.2.1 Zookeeper安裝模式 218
8.2.2 Zookeeper角色 219
8.2.3 Zookeeper常用命令 219
8.2.4 Zookeeper安裝前準備 220
任務3 Zookeeper多種模式安裝 222
8.3.1 Zookeeper配置中的參數 222
8.3.2 單節點模式安裝及配置 222
8.3.3 偽集群模式安裝及配置 227
8.3.4 完全分散式模式安裝及配置 232
習題 235
參考文獻 237
作者簡介
陳秀玲,計算機專業教授,1999年7月畢業於哈爾濱理工大學,同年就職於黑龍江職業學院,從事計算機相關專業的教學工作至2019年8月。由2019年8月至今在重慶化工職業學院從事大數據套用相關專業的教學工作。近十年總計完成課題20項(其中主持省教育廳、省科技處課題2項、院級重點課題1項,參與各類課題各4項,主持或參與職教學會、高教學會、院級一般課題13項),並且全部結題。將研究成果和教學經驗整理髮表論文十餘篇、主編或編寫教材總計16部,申請實用新型專利2項,參與專利5項。主講《C語言》、《C 》、《Java語言》、《Python》、《MySQL》、《VB程式設計》、《SQL Server資料庫》、《軟體工程》、《軟體測試》、《作業系統》、《IT項目經理》、《VFP資料庫》等多門課程。