數據科學導引

數據科學導引

《數據科學導引》是由歐高炎、朱占星、董彬、鄂維南編著,2017年高等教育出版社出版的教材,該教材是博雅大數據學院針對開設的“數據科學與大數據技術”專業編寫的數據科學導論課程教材,可作為全國高等學校數據科學相關專業的本科生和研究生教材,也可供從事相關工作的技術人員參考使用。

全書內容共分十五章,包括緒論、數據預處理、回歸模型等內容。

基本介紹

  • 中文名:數據科學導引
  • 作者:歐高炎、朱占星、董彬、鄂維南
  • 出版社:高等教育出版社
  • 出版時間:2017年12月20日
  • 頁數:400 頁
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:978-7-04-048911-8
  • 版面字數:340千字
成書過程,內容簡介,教材目錄,教學資源,教材特色,作者簡介,

成書過程

《數據科學導引》是博雅大數據學院系列教材的第一本。其目的是從技術的角度對數據科學涉及的模型和算法進行全面介紹。
該教材是集體創作的成果。歐高炎負責數據預處理、分類模型、集成模型、關聯規則挖掘、降維、文本分析、分散式計算等章節和附錄。朱占星負責回歸模型、聚類模型、特徵選擇、EM算法、機率圖模型和深度學習等章節。董彬對教材進行審閱並提出了很多寶貴意見。鄂維南負責全書的統籌和組織以及所有章節的修改,同時負責緒論章節。北京大學計算機科學技術研究所鄒磊和湖南大學信息科學與工程學院彭鵬撰寫了圖與網路分析章節的初稿。北京大學數據科學專業姚嘉豪、余欣航、陳嘉和王文佳等同學對該教材初稿進行了校核。博雅大數據學院的數據分析師晏曉東和高揚參與了該教材案例與實戰部分的撰寫和“數據嗨客”線上案例和練習的整理。博雅大數據學院的UI設計師戴曉彤製作了該教材大部分插圖。
2017年12月20日,《數據科學導引》由高等教育出版社出版。

內容簡介

《數據科學導引》內容共分十五章,包括緒論、數據預處理、回歸模型、分類模型、集成模型、聚類模型、關聯規則挖掘、降維、特徵選擇、EM 算法、機率圖模型、文本分析、圖與網路分析、深度學習、分散式計算。附錄部分對相關的基礎知識做了簡要介紹。

教材目錄

前輔文
第一章 緒論
1.1 數據科學的基本內容
1.2 對學科發展的影響
1.3 對科學研究的影響
1.4 數據科學的課程體系
1.5 本書內容介紹
第二章 數據預處理
2.1 特徵編碼
2.2 缺失值處理
2.3 數據標準化
2.4 特徵離散化
2.5 離群值檢測
2.6 其他預處理方法
案例與實戰
第三章 回歸模型
3.1 線性回歸
3.2 線性回歸正則化
3.3 非線性回歸
案例與實戰
第四章 分類模型
4.1 邏輯回歸
4.2 K 近鄰
4.3 決策樹
4.4 樸素貝葉斯
4.5 支持向量機
案例與實戰
第五章 集成模型
5.1 集成方法綜述
5.2 隨機森林
5.3 AdaBoost
5.4 套用實例: 個人信用風險評估
案例與實戰
第六章 聚類模型
6.1 K-means 聚類
6.2 層次聚類
6.3 譜聚類
6.4 基於密度的聚類
6.5 小結
案例與實戰
第七章 關聯規則挖掘
7.1 關聯規則概述
7.2 Apriori 算法
7.3 FP-Growth 算法
案例與實戰
第八章 降維
8.1 主成分分析
8.2 線性判別分析
8.3 多維尺度變換
8.4 局部線性嵌入
8.5 其他降維方法
案例與實戰
第九章 特徵選擇
9.1 特徵選擇的一般過程
9.2 特徵選擇常用的方法
9.3 無監督特徵選擇
9.4 小結
案例與實戰
第十章 EM 算法
10.1 EM 算法
10.2 EM 的套用: 高斯混合模型
10.3 小結
案例與實戰
第十一章 機率圖模型
11.1 機率圖模型概述
11.2 隱馬爾可夫模型
11.3 條件隨機場
11.4 小結
案例與實戰
第十二章 文本分析
12.1 文本表示模型
12.2 主題模型
12.3 情感分析
案例與實戰
第十三章 圖與網路分析
13.1 基本概念
13.2 幾何特徵
13.3 連結分析
13.4 社區發現
13.5 知識圖譜
案例與實戰
第十四章 深度學習
14.1 多層感知機
14.2 深度學習模型的最佳化
14.3 卷積神經網路
14.4 循環神經網路
14.5 小結
案例與實戰
第十五章 分散式計算
15.1 Hadoop: 分散式存儲與處理
15.2 常見模型的\ MapReduce 實現
15.3 Spark: 分散式數據分析
15.4 其他分散式系統
附錄
A. 矩陣運算
B. 機率論基礎
C. 最佳化算法
D. 距離
E. 模型評估
參考文獻

教學資源

  • 課程資源
《數據科學導引》配套建設有數據科學導引數字課程。該數字課程包括實踐案例、配套數據集、拓展閱讀等內容。
數字課程名稱
出版社
出版時間
內容提供者
數據科學導引數字課程
高等教育出版社、高等教育電子音像出版社
2017年12月
歐高炎、朱占星、董彬、鄂維南

教材特色

《數據科學導引》系統地介紹數據科學的基本內容,包括數據預處理,數據分析的基本方法,特殊問題的處理(比方說文本分析)深度學習,以及分散式系統。除了從理論角度系統地介紹數據科學的基本內容,該教材還提供了數據分析實踐案例。學生可以藉助“數據嗨客”這一平台進行實際的操作,和數據進行互動,在提高動手能力的同時加深對理論的理解和認識。教師可以將數據嗨客提供的線上實踐練習作為實踐作業,學生線上完成後教師可以直接得到反饋報表,從而減輕教師的工作量。

作者簡介

歐高炎,博雅大數據學院院長。
朱占星,北京大學大數據科學研究中心研究員。
董彬,北京大學數學學院教師,數學學科學位分委員會委員。
鄂維南,男,1963年9月生於江蘇省靖江市,博士,2011年當選為中國科學院數學物理學部院士。現任北京大學、普林斯頓大學教授。

相關詞條

熱門詞條

聯絡我們