大數據技術原理與套用課程是廈門大學於2017年11月6日首次在中國大學MOOC提供的慕課課程、國家精品線上開放課程。該課程授課教師為林子雨。據2020年12月中國大學MOOC官網顯示,該課程已開課7次。
大數據技術原理與套用課程系統梳理總結大數據相關技術,介紹大數據技術的基本原理和大數據主要套用。
課程性質
課程背景
課程定位
開課信息
開課次數 | 開課時間 | 學時安排 | 參與人數 |
---|---|---|---|
第1次開課 | 2017年11月06日-2018年02月08日 | 2-3小時每周 | 36882 |
第2次開課 | 2018年03月12日-2018年06月17日 | 3小時每周 | 17019 |
第3次開課 | 2018年09月03日-2018年12月17日 | 3-5小時每周 | 20830 |
第4次開課 | 2019年03月04日-2019年06月09日 | 3小時每周 | 21482 |
第5次開課 | 2019年09月16日-2019年12月22日 | 33701 | |
第6次開課 | 2020年02月17日-2020年05月凳凝25日 | 4小時每周 | 40516 |
第7次開課 | 2020年09月14日-2020年12月28日 | 待定 |
課程簡介
課程大綱
第1講 大數據概述 1.1 大數據時代 1.2 大數據概念和影響 1.3 大數據的套用 1.4 大數據的放狼歡關鍵技術 1.5 大數據與雲計算、物聯網 本講配套講義PPT-第1講-大數據概述 第1講大數據概述章節單元測驗 第2講 大數據處理架構Hadoop 本講實驗答疑-第2講-大數據處理架構Hadoop 2.1 概述 2.2 Hadoop項目結構 2.3 Hadoop的安裝與使用 2.4 Hadoop集群的部署和使用 本講配套講義PPT-第2講-大數據處理架構Hadoop 大數據處理架構Hadoop單元測驗 第3講 分散式檔案系統HDFS 3.1 分散式檔案系統HDFS簡恥巴熱虹介 3.2 HDFS相關概念 3.3 HDFS體系結構 3.4 HDFS存儲原理 3.5 HDFS數據讀寫過程 3.6 HDFS編程實踐 本講催局腿配套講義PPT-第3講-分散式檔案系統HDFS 分散式檔案系統HDFS單元測驗 第4講 分散式資料庫HBase 4.1 HBase簡介 4.2 HBase數據模型 4.3 HBase的實現原理 4.4 HBase運行機制 4.5 HBase套用方案 4.6 HBase安裝配置和常用Shell命令 4.7 HBase常用Java API及套用實例 本講配套講義PPT-第4講-分布府民仔式資料庫HBase 分散式資料庫HBase單元測驗 第5講 NoSQL資料庫 5.1 NoSQL概述 5.2 NoSQL與關係資料庫的比較 5.3 NoSQL的四大類型 5.4 NoSQL的三大基石 5.5 從NoSQL到NewSQL資料庫 5.6 文檔資料庫MongoDB 本講配套講義PPT-第5講-NoSQL資料庫 NoSQL資料庫單元測驗 第6講 雲資料庫 6.1 雲資料庫概述 6.2 雲資料庫產品 6.3 雲資料庫系統架構 6.4 Amazon AWS和雲資料庫 6.5 微軟雲資料庫SQL Azure 6.6 雲資料庫實踐 本講配套講義PPT-第6講-雲資料庫 雲資料庫單元測驗 第7講 MapReduce 7.1 MapReduce概述 7.2 MapReduce的體系結構 7.3 MapReduce工作流程 7.4 Shuffle過程原理 7.5 MapReduce應用程式執行過程 7.6 實例分析:WordCount 7.7 MapReduce的具體套用 | 7.8 MapReduce編程實踐 本講配套講義PPT-第7講-MapReduce MapReduce單元測驗 第8講 Hadoop再探討 8.1 Hadoop的最佳化與發展 8.2 HDFS2.0的新特性 8.3 新一代資源管理調度框架YARN 8.4 Hadoop生態系統中具有代表性的功能組件 本講配套講義PPT-第9講-Hadoop再探討 Hadoop再探討單元測驗 第9講 數據倉庫Hive 9.1 數據倉庫概念 9.2 Hive簡介 9.3 SQL轉換成MapReduce作業的原理 9.4 Impala 9.5 Hive編程實踐 本講配套講義PPT-第9講-數據倉庫Hive 數據倉庫Hive單元測驗 第10講 Spark 10.1 Spark概述 10.2 Spark生態系統 10.3 Spark運行架構 10.4 Spark SQL 10.5 Spark的部署和套用方式 10.6 Spark編程實踐 本講配套講義PPT-第10講-Spark Spark單元測驗 第11講 流計算 11.1 流計算概述 11.2 流計算處理流程 11.3 流計算的套用 11.4 開源流計算框架Storm 11.5 Spark Streaming、Samza以及三種流計算框架的比較 11.6 Storm編程實踐 本講配套講義PPT-第11講-流計算 流計算單元測驗 第12講 Flink 12.1Flink簡介 12.2為什麼選擇Flink 12.3Flink套用場景 12.4Flink技術棧、體系架構和編程模型 12.5 Flink的安裝與編程實踐 本講配套講義PPT-第12講-Flink Flink單元測驗 第13講 圖計算 13.1 圖計算簡介 13.2 Pregel簡介 13.3 Pregel圖計算模型 13.4 Pregel的C++ API 13.5 Pregel的體系結構 13.6 Pregel的套用實例——單源最短路徑 13.7 Hama的安裝和使用 本講配套講義PPT-第13講-圖計算 圖計算單元測驗 第14講 大數據在不同領域的套用 14.1 大數據套用概覽 14.2 推薦系統 14.3 大數據在智慧型醫療和智慧型物流領域運用 本講配套講義PPT-第14講-大數據在不同領域的套用 大數據在不同領域的套用單元測驗 |
課前預備
預備知識
學習資料
書名 | 作者 | ISBN | 出版時間 | 出版社 |
---|---|---|---|---|
《大數據技術原理與套用(第2版)》 | 林子雨 | 978-7-115-44330-4 | 2017年2月 | 人民郵電出版社 |
《大數據導論(通識課版)》 | 978-7-04-053577-8 | 2020年2月 | 高等教育出版社 | |
《大數據基礎編程、實驗和案例教程》 | 978-7-302-47209-4 | 2017年8月 | 清華大學出版社 | |
《Spark編程基礎(Scala版)》 | 林子雨、賴永炫、陶繼平 | 978-7-115-48816-9 | 2018年8月 | 人民郵電出版社 |