(1) 概念篇:介紹當前緊密關聯的最新IT領域技術雲計算、大數據和物聯網。(2) 大數據存儲篇:介紹分散式數據存儲的概念、原理和技術,包括HDFS、HBase、NoSQL資料庫、雲資料庫。(3) 大數據處理與分析篇:介紹MapReduce分散式編程框架、圖計算、流計算。(4) 大數據套用篇:介紹基於大數據技術的推薦系統
基本介紹
- 書名:大數據技術原理與套用
- 作者:林子雨
- ISBN:978-7-115-39287-9
- 頁數:260
- 出版社:人民郵電出版社
- 出版時間:2015年8月第1版
- 開本:185*260
概述,前言,
概述
本書系統介紹了大數據相關知識,全書共有13章,系統地論述了大數據的基本概念、大數據處理架構Hadoop、分散式檔案系統HDFS、分散式資料庫HBase、NoSQL資料庫、雲資料庫、分散式並行編程模型MapReduce、流計算、圖計算、數據可視化以及大數據在網際網路、生物醫學和物流等各個領域的套用。在Hadoop、HDFS、HBase和MapReduce等重要章節,安排了入門級的實踐操作,讓讀者更好地學習和掌握大數據關鍵技術。
本書可以作為高等院校計算機專業、信息管理等相關專業的大數據課程教材,也可供相關技術人員參考、學習、培訓之用。
前言
大數據作為繼雲計算、物聯網之後IT行業又一顛覆性的技術,備受關注。大數據無處不在,包括金融、汽車、零售、餐飲、電信、能源、政務、醫療、體育、娛樂等在內的社會各行各業,都融入了大數據的印跡,大數據對人類的社會生產和生活必將產生重大而深遠的影響。
大數據時代的到來,迫切需要高校及時建立大數據技術課程體系,為社會培養和輸送一大批具備大數據專業素養的高級人才,滿足社會對大數據人才日益旺盛的需求。本書定位為大數據技術入門教材,為讀者搭建起通向“大數據知識空間”的橋樑和紐帶。本書將系統梳理總結大數據相關技術,介紹大數據技術的基本原理和大數據主要套用,幫助讀者形成對大數據知識體系及其套用領域的輪廓性認識,為讀者在大數據領域“深耕細作”奠定基礎、指明方向。在本書的基礎上,感興趣的讀者可以通過其他諸如《Hadoop權威指南》等工具書,繼續深入學習和實踐大數據相關技術。
本書緊緊圍繞“構建知識體系、闡明基本原理、引導初級實踐、了解相關套用”的指導思想,對大數據知識體系進行系統梳理,做到“有序組織、去粗取精、由淺入深、漸次展開”。本書共分四大部分,包括大數據基礎篇、大數據存儲篇、大數據處理與分析篇和大數據套用篇。在大數據基礎篇中,第一章介紹大數據的基本概念和套用領域,並闡述大數據、雲計算和物聯網的相互關係;第二章介紹大數據處理架構Hadoop,由於Hadoop已經成為套用最為廣泛的大數據技術,因此,本書的大數據相關技術主要圍繞Hadoop展開,包括Hadoop MapReduce、HDFS和HBase,因此,該章是後面其他章節(第三、四、七章)內容的基礎。在大數據存儲篇中,用五個章節(第三、四、五、六章)的內容,分別介紹了大數據存儲相關技術的概念與原理,包括分散式檔案系統HDFS、分散式資料庫HBase、NoSQL資料庫和雲資料庫。在大數據處理與分析篇,首先在第七章介紹了大數據處理和分析的核心技術——分散式並行編程模型MapReduce,然後,在第八章和第九章分別介紹了大數據時代兩種新興的數據分析技術——流計算和圖計算,最後在第十章簡單介紹了可視化技術。在大數據套用篇,用三章(第十一、十二、十三)內容介紹了大數據在網際網路、生物醫學和物流等各個領域的典型套用。
本書面向高校計算機專業和信息管理等相關專業的學生,可以作為專業必修課或選修課教材。在教學過程中,建議安排32個授課學時,16個教學周,每周2學時,每個章節的具體學時分配如下:第一、二、五、六、八、十、十一每個章節安排2個學時;第三、四、九章每個章節安排4個學時;第七章安排6個學時;第十二、十三章這兩章內容由學生自學完成。
本書由林子雨執筆。在撰寫過程中,廈門大學計算機科學系碩士研究生劉穎傑、葉林寶、蔡珉星、李雨倩、謝榮東、羅道文以及本科生黃梓銘、李粲等同學做了大量輔助性工作,在此,向這些同學的辛勤工作表示衷心的感謝。
本書官方網站,提供教學PPT和相關資料下載,並接受錯誤反饋和發布教材勘誤信息。
本書在撰寫過程中,我參考了大量國內外教材、專著、論文和資料,對大數據知識進行了系統梳理,有選擇性地把一些重要知識納入本書。本書也是我多年在數據科學領域從事教學、科研、產業方面工作的系統總結。但是,本人才疏學淺,難免有許多不足之處,望學術同仁不吝賜教。
廈門大學計算機科學係數據庫實驗室
林子雨
2015年3月,於廈門