《大數據技術與套用-微課視頻版》是2020年清華大學出版社出版的圖書,作者是肖政宏 李俊傑 謝志明。
大數據技術與套用-微課視頻版
作者:肖政宏 李俊傑 謝志明
定價:49.80元
印次:1-1
ISBN:9787302538431
出版日期:2020.06.01
內容簡介
本書共分12章,分為基礎篇、核心篇和套用篇。基礎篇包括大數據概論、大數據集群系統基礎、Hadoop分散式系統、HDFS分散式檔案系統、MapReduce分散式計算、HBase分散式資料庫套用; 核心篇包括YARN資源分配、Spark集群計算、Spark機器學習、Hive數據倉庫套用、ZooKeeper協調服務; 套用篇包括醫藥大數據案例分析。 本書可以作為高等院校大數據技術相關課程本科生教材,也可以作為大數據技術基礎相關課程研究生教材,還可以作為從事大數據相關工作的工程技術人員的參考用書。
目錄
基礎篇
第1章大數據概論
1.1大數據概述
1.1.1大數據的定義
1.1.2大數據的特徵
1.2大數據的分析過程
1.2.1大數據的採集
1.2.2大數據的存儲方式
1.2.3大數據分析技術
1.2.4大數據的展示及套用
1.3大數據的價值、挑戰與風險
1.3.1商業價值
1.3.2社會生活價值
1.3.3大數據的挑戰與風險
1.4大數據的套用
1.5大數據的處理流程
1.6大數據成為人工智慧產業的燃料
1.7大數據技術的發展前景
小結
習題
第2章大數據集群系統基礎
2.1大數據集群系統概述
2.1.1集群的分類
2.1.2集群的目的
2.2Linux作業系統
2.2.1Linux作業系統簡介
2.2.2Linux作業系統的特性
2.2.3Linux安裝與基礎操作
2.2.4Linux常用命令
2.3虛擬化技術
2.3.1虛擬化技術簡介
2.3.2虛擬技術的原理
2.3.3常見的虛擬化軟體
2.3.4虛擬化技術的優勢和劣勢
2.4CentOS大數據集群系統的組成
2.5大數據集群技術的架構
2.6操作實踐: 大數據集群的部署
2.6.1集群規劃
2.6.2網路配置
2.6.3安全配置
2.6.4時間同步
2.6.5SSH登錄
小結
習題
第3章Hadoop分散式系統
3.1Hadoop概述
3.1.1Hadoop簡介
3.1.2Hadoop的發展歷程
3.1.3Hadoop原理及運行機制
3.2Hadoop相關技術及生態系統
3.3操作實踐: Hadoop安裝與配置
3.3.1安裝JDK
3.3.2安裝Hadoop
3.3.3配置Hadoop
3.3.4格式化
3.3.5運行Hadoop
小結
習題
第4章HDFS分散式檔案系統
4.1HDFS
4.1.1設計前提和設計目標
4.1.2Namenode和Datanode
4.1.3檔案系統的名字空間
4.1.4數據複製
4.1.5HDFS讀流程
4.1.6HDFS寫流程
4.2HDFS操作實踐
4.2.1HDFS Shell
4.2.2HDFS Java API
4.2.3Eclipse開發環境
4.2.4綜合實例
小結
習題
第5章MapReduce分散式計算
5.1MapReduce簡介
5.1.1MapReduce架構
5.1.2MapReduce的原理
5.1.3MapReduce的工作機制
5.2MapReduce操作實踐
5.2.1MapReduce WordCount編程實例
5.2.2MapReduce倒排索引編程實例
小結
習題
第6章HBase分散式資料庫套用
6.1HBase簡介
6.1.1HBase架構
6.1.2HBase的存儲
6.2HBase集群部署
6.2.1HBase參數配置
6.2.2HBase運行與測試
6.3HBase Shell操作命令
6.3.1general操作
6.3.2namespace操作
6.3.3DDL操作
6.3.4DML操作
6.3.5授權
6.4HBase過濾器
6.5HBase編程
6.5.1HBase表操作編程
6.5.2HBase過濾查詢編程
小結
習題
核心篇
第7章YARN資源分配
7.1統一資源管理和調度平台引例
7.1.1背景
7.1.2特點
7.1.3典型的統一資源調度平台
7.2YARN簡介
7.2.1YARN架構
7.2.2YARN的工作流程
7.2.3YARN的優勢
7.3操作實踐: YARN Shell實例
小結
習題
第8章Spark集群計算
8.1Spark簡介
8.1.1Spark生態系統
8.1.2Spark架構
8.2Spark RDD
8.2.1RDD的依賴關係
8.2.2作業調度
8.2.3記憶體管理
8.2.4檢查點支持
8.3Spark集群部署及套用案例
8.3.1Spark參數配置
8.3.2Spark集群運行
8.3.3Spark互動
8.3.4Spark運算元
8.3.5Spark算法實例1: 詞頻統計
8.3.6Spark算法實例2: 相關係數
小結
習題
第9章Spark機器學習
9.1機器學習概述
9.1.1機器學習的發展史
9.1.2機器學習步驟
9.2Spark MLlib概述
9.2.1數據類型
9.2.2基本統計——基於DataFrame的API
9.2.3基本統計——基於RDD的API
9.3Spark實例
9.3.1聚類問題
9.3.2隨機森林
小結
習題
第10章Hive數據倉庫套用
10.1Hive簡介
10.1.1Hive組成模組
10.1.2Hive執行流程
10.1.3MetaStore存儲模式
10.2Hive安裝與配置
10.2.1Hive參數配置
10.2.2Hive運行與測試
10.2.3Hive Beeline
10.3數據類型和檔案格式
10.3.1數據類型
10.3.2檔案格式
10.4Hive數據定義與數據操作
10.4.1基本概念
10.4.2資料庫管理
10.4.3表的管理
10.4.4外部表的管理
10.4.5分區管理
10.4.6數據操作
10.4.7桶的操作
10.4.8索引
10.5Hive數據查詢
10.5.1簡單查詢
10.5.2複雜查詢
10.5.3JOIN連線查詢
10.5.4其他語句
10.6Hive編程
10.6.1JDBC函式
10.6.2完整實例
小結
習題
第11章ZooKeeper協調服務
11.1ZooKeeper簡介
11.1.1ZAB協定
11.1.2ZooKeeper數據模型
11.1.3會話
11.1.4事件監聽器
11.1.5訪問許可權
11.2ZooKeeper集群部署
11.3ZooKeeper基本命令
11.4ZooKeeper套用
11.4.1Hadoop
11.4.2Spark
11.4.3Hive
11.5ZooKeeper編程
11.5.1ZooKeeper讀/寫操作
11.5.2集群狀態監控
小結
習題
套用篇
第12章醫藥大數據案例分析
12.1項目概述
12.2功能需求
12.3軟體關鍵技術
12.4效果展示
12.5系統構架設計
12.5.1系統組成
12.5.2系統協作方式
12.5.3系統網路拓撲
12.5.4系統建設方案
12.6數據存儲設計
12.7數據分析
12.8數據展示
小結
習題
參考文獻