大數據基礎及套用

《大數據基礎及套用》是清華大學出版社的圖書,作者是呂雲翔、鐘巧靈、衣志昊。

基本介紹

  • 書名:大數據基礎及套用
  • 作者:呂雲翔、鐘巧靈、衣志昊
  • ISBN:9787302466918
  • 定價:39.50元
  • 出版時間:2017.03.01
  • 印刷日期:2017.03.20
  • 印次:1-1
內容簡介,目錄,

    內容簡介

    本書從大數據的基本概念開始,由淺入深地領會大數據的精髓。本書除了講述必要的大數據理論之外,還通過大數據實踐來講述大數據技術的套用,包括如何運用阿里雲大數據計算平台分析和解決實際問題,很好地體現了大數據理論與實踐的有機結合。

    目錄

    第一部分大數據概述及基礎
    第1章大數據概念和發展背景
    1.1什麼是大數據
    1.2大數據的特點
    1.3大數據的發展
    1.4大數據的套用
    1.5習題
    第2章大數據系統架構概述
    2.1總體架構概述
    2.1.1總體架構設計原則
    2.1.2總體架構參考模型
    2.2運行架構概述
    2.2.1物理架構
    2.2.2集成架構
    2.2.3安全架構
    2.3阿里雲飛天系統體系架構
    2.3.1阿里雲飛天整體架構
    2.3.2阿里雲飛天平台核心
    2.3.3阿里雲飛天開放服務
    2.3.4阿里雲飛天的特色
    2.4主流大數據系統廠商
    2.4.1阿里雲數加平台
    2.4.2Cloudera
    2.4.3Hortonworks
    2.4.4Amazon
    2.4.5Google
    2.4.6微軟
    2.5習題
    第3章分散式通信與協同
    3.1數據編碼傳輸
    3.1.1數據編碼概述
    3.1.2LZSS算法
    3.1.3Snappy壓縮庫
    3.2分散式通信系統
    3.2.1遠程過程調用
    3.2.2訊息佇列
    3.2.3套用層多播通信
    3.2.4阿里雲夸父RPC系統
    3.2.5HadoopIPC的套用
    3.3分散式協同系統
    3.3.1Chubby鎖服務
    3.3.2ZooKeeper
    3.3.3阿里雲女媧協同系統
    3.3.4ZooKeeper在HDFS高可用方案中的使用
    3.4習題
    第4章大數據存儲
    4.1大數據存儲技術的發展
    4.2海量數據存儲的關鍵技術
    4.2.1數據分片與路由
    4.2.2數據複製與一致性
    4.3重要數據結構和算法
    4.3.1BloomFilter
    4.3.2LSMTree
    4.3.3MerkleTree
    4.3.4CuckooHash
    4.4分散式檔案系統
    4.4.1檔案存儲格式
    4.4.2GFS
    4.4.3HDFS
    4.4.4阿里雲盤古
    4.5分散式資料庫NoSQL
    4.5.1NoSQL資料庫概述
    4.5.2KV資料庫
    4.5.3列式資料庫
    4.5.4圖資料庫
    4.5.5文檔資料庫
    4.6阿里雲資料庫
    4.6.1雲資料庫Redis
    4.6.2雲資料庫RDS
    4.6.3雲資料庫Memcache
    4.7大數據存儲技術的趨勢
    4.8習題
    第二部分大數據處理
    第5章分散式處理
    5.1CPU多核和POSIXThread
    5.2MPI並行計算框架
    5.3HadoopMapReduce
    5.4Spark
    5.5數據處理技術的發展
    5.6習題
    第6章HadoopMapReduce解析
    6.1HadoopMapReduce架構
    6.2HadoopMapReduce與高效能計算、格線計算的區別
    6.3MapReduce工作機制
    6.3.1Map
    6.3.2Reduce
    6.3.3Combine
    6.3.4Shuffle
    6.3.5SpeculativeTask
    6.3.6任務容錯
    6.4套用案例
    6.4.1WordCount
    6.4.2WordMean
    6.4.3Grep
    6.5MapReduce的缺陷與不足
    6.6習題
    第7章Spark解析
    7.1SparkRDD
    7.2Spark與MapReduce的對比
    7.3Spark的工作機制
    7.3.1DAG工作圖
    7.3.2Partition
    7.3.3Lineage容錯方法
    7.3.4記憶體管理
    7.3.5數據持久化
    7.4數據的讀取
    7.4.1HDFS
    7.4.2AmazonS3
    7.4.3HBase
    7.5套用案例
    7.5.1日誌挖掘
    7.5.2判別西瓜好壞
    7.6Spark的發展趨勢
    7.7習題
    第8章流計算
    8.1流計算概述
    8.2流計算與批處理系統的對比
    8.3Storm流計算系統
    8.4Samza流計算系統
    8.5阿里雲流計算
    8.6集群日誌檔案的實時分析
    8.7流計算的發展趨勢
    8.8習題
    第9章圖計算
    9.1圖計算概述
    9.2圖計算與流計算、批處理的對比
    9.3SparkGraphX
    9.4Pregel
    9.5航班機場狀態分析
    9.6圖計算的發展趨勢
    9.7習題
    第10章阿里雲大數據計算服務平台
    10.1MaxCompute概述
    10.2MR計算
    10.3SQL計算
    10.4Graph計算
    10.5習題
    第11章集群資源管理與調度
    11.1集群資源統一管理系統
    11.1.1集群資源管理概述
    11.1.2ApacheYARN
    11.1.3ApacheMesos
    11.1.4GoogleOmega
    11.2資源管理模型
    11.2.1基於slot的資源表示模型
    11.2.2基於最大最小公平原則的資源分配模型
    11.3資源調度策略
    11.3.1調度策略概述
    11.3.2CapacityScheduler調度
    11.3.3FairScheduler調度
    11.4在YARN上運行計算框架
    11.4.1MapReduceonYARN
    11.4.2SparkonYARN
    11.4.3YARN程式設計
    11.5阿里雲伏羲調度系統
    11.5.1伏羲調度系統架構
    11.5.25K挑戰
    11.5.3伏羲最佳化實踐
    11.6習題
    第三部分大數據分析與套用
    第12章數據分析
    12.1數據操作與繪圖
    12.1.1數據結構
    12.1.2繪圖功能
    12.2初級數據分析
    12.2.1描述性統計分析
    12.2.2回歸診斷
    12.3互動式數據分析
    12.3.1互動式數據分析的特徵
    12.3.2互動式數據處理的典型套用
    12.3.3典型的處理系統
    12.4數據倉庫與分析
    12.4.1數據倉庫的基本架構
    12.4.2數據倉庫的實現步驟
    12.4.3分散式數據倉庫Hive
    12.4.4數據倉庫之SQL分析
    12.4.5阿里雲MaxCompute數據倉庫案例
    12.5習題
    第13章數據挖掘與機器學習技術
    13.1相關理論基礎知識
    13.1.1數據挖掘與機器學習簡介
    13.1.2關聯分析
    13.1.3分類與回歸
    13.1.4聚類分析
    13.1.5離群點檢測
    13.1.6複雜數據類型的挖掘
    13.2套用實踐
    13.2.1廣告點擊率預測
    13.2.2並行隨機梯度下降
    13.2.3自然語言處理:文檔相似性的計算
    13.2.4阿里雲PAI與ET
    13.3深度學習
    13.3.1深度學習簡介
    13.3.2DistBelief
    13.3.3TensorFlow
    13.4數據挖掘與機器學習的發展趨勢
    13.5習題
    第14章大數據實踐:基於數加平台的推薦系統
    14.1數據集簡介
    14.2數據探索
    14.3方案設計
    14.4訓練集構造
    14.4.1MapReduce環境配置
    14.4.2MapReduce代碼編寫
    14.4.3特徵提取與標籤提取
    14.4.4訓練集採樣
    14.4.5缺失值填充
    14.5模型訓練與預測
    14.6模型預測的準確性評測
    14.7特徵重要性的評估
    14.8總結
    參考文獻

    相關詞條

    熱門詞條

    聯絡我們