大數據基礎教程

大數據基礎教程

《大數據基礎教程》是清華大學出版社2020年出版圖書,作者王成良 廖軍

基本介紹

  • 中文名:大數據基礎教程
  • 作者:王成良 廖軍
  • 出版社:清華大學出版社
  • ISBN:9787302559665 
內容簡介,目錄,作者簡介,

內容簡介

本書是理論與實踐相結合的教材,以Centos 7、Eclipse等為實驗開發工具,搭建了Hadoop、HBase、ZooKeeper、Spark等相應的實驗集群,通過相關經典實驗案例,使學生由淺入深、由點到面的逐步提高和鞏固大數據基礎理論知識和綜合實踐能力。

目錄

第1章大數據概述
1.1大數據發展背景
1.1.1引言
1.1.2發展歷程
1.2大數據相關概念及特點
1.2.1大數據特點
1.2.2相關概念介紹
1.3大數據套用過程
1.3.1數據採集
1.3.2預處理
1.3.3數據存儲管理
1.3.4數據挖掘分析
1.4大數據技術
1.4.1大數據集群
1.4.2大數據技術架構
1.5大數據行業套用
1.5.1網際網路與電子商務行業
1.5.2醫療健康行業
1.5.3交通行業大數據套用
1.5.4金融行業
1.5.5政府機構
1.5.6零售業
1.5.7其他套用領域
1.6大數據的挑戰和機遇
1.6.1大數據的挑戰
1.6.2大數據的機遇
1.7本書內容結構介紹
第2章Hadoop基礎
2.1概念介紹
2.1.1架構
2.1.2Apache Hadoop概述
2.2Hadoop的安全性
2.2.1安全問題
2.2.2Simple機制
2.2.3Kerberos機制
2.2.4委託令牌
2.3實驗環境準備
2.3.1虛擬機安裝
2.3.2CentOS 7 系統安裝
2.3.3其他軟體安裝
2.4搭建Hadoop
2.4.1CentOS 7系統配置
2.4.2SSH免密碼登錄
2.4.3配置JDK
2.4.4解壓Hadoop
2.4.5配置Hadoop
2.4.6啟動Hadoop
第3章HDFS的介紹和簡單操作
3.1Hadoop分散式檔案系統(HDFS)
3.2HDFS的原理
3.3HDFS寫操作
3.4HDFS讀操作
3.5HDFS刪除操作
3.6HDFS常用命令
3.7實驗
3.7.1創建目錄
3.7.2上傳檔案命令
3.7.3羅列HDFS上的檔案
3.7.4查看HDFS里某一個檔案
3.7.5將HDFS中的檔案複製到本地
3.7.6遞歸刪除HDFS下的文檔
第4章YARN的原理和操作
4.1YARN簡介
4.1.1YARN的概念及背景
4.1.2YARN的使用
4.1.3YARN介紹
4.2YARN的基本架構
4.3YARN的工作流程
4.4YARN協定
4.5YARN的優點
第5章MapReduce的介紹和簡單使用
5.1MapReduce簡介
5.2Map過程
5.3Reduce過程
5.4開發環境的搭建
5.5實驗
5.5.1單詞計數
5.5.2二次排序實驗
5.5.3計數器實驗
第6章Hive
6.1Hive 簡介
6.1.1Hive基礎
6.1.2Hive的工作原理
6.1.3Hive與傳統資料庫
6.2HiveQL基礎
6.3Hive的安裝與配置
6.3.1搭建Hive
6.3.2安裝配置MySQL
6.3.3配置Hive
6.4實驗
第7章HBase
7.1HBase簡介
7.1.1HBase基礎
7.1.2HBase數據模型
7.1.3HBase訪問接口
7.2HBase與RDBMS
7.3HBase的安裝與配置
7.3.1偽分散式安裝
7.3.2完全分散式
7.4實驗
第8章ZooKeeper基礎
8.1ZooKeeper簡介
8.1.1概念簡介
8.1.2主要特點
8.2ZooKeeper體系結構
8.3關鍵算法ZAB
8.4ZooKeeper集群搭建
8.5ZooKeeper四字命令
8.6實驗
8.6.1ZooKeeper客戶端
8.6.2ZooKeeper Java API的使用
第9章Spark基礎
9.1Spark介紹
9.1.1概念介紹
9.1.2組件介紹
9.1.3特性
9.2Spark主要架構
9.3Spark計算模型
9.4Spark運行模式
9.5Spark SQL
9.5.1Hive and Shark
9.5.2Shark和Spark SQL
9.5.3Spark SQL運行架構
9.5.4sqlContext和hiveContext的運行過程
9.6Spark Steaming
9.6.1術語定義
9.6.2Storm與Spark Streaming的比較
9.6.3運行原理
9.7安裝Spark
9.8實驗
第10章Apache Kafka
10.1基礎概念介紹
10.1.1訊息佇列
10.1.2訊息中間件
10.2Kafka結構
10.3Producer和Consumer
10.3.1Kafka Producer
10.3.2Kafka Consumer
10.3.3消費狀態跟蹤
10.4Kafka的特性
10.5訊息與日誌
10.5.1寫操作
10.5.2讀操作
10.5.3刪除操作
10.5.4訊息可靠性
10.6實驗
10.6.1Kafka集群搭建
10.6.2訊息傳送與接收
參考文獻

作者簡介

王成良,男,已從事教學和科研工作近30年。一直在重慶大學計算機學院和軟體學院從事多媒體技術、計算機網路、資料庫技術等課程的教學工作。
曾經編寫過的教材

相關詞條

熱門詞條

聯絡我們