數據科學導論(2021年清華大學出版社出版的圖書)

數據科學導論(2021年清華大學出版社出版的圖書)

本詞條是多義詞,共3個義項
更多義項 ▼ 收起列表 ▲

《數據科學導論》是清華大學出版社出版的圖書。

基本介紹

  • 中文名:數據科學導論
  • 作者:石川、王嘯、胡琳梅
  • 出版時間:2021年4月
  • 出版社清華大學出版社
  • ISBN:9787302569688
  • 類別:工學類圖書
  • 開本:16 開
  • 裝幀:平裝-膠訂
出版信息,內容簡介,圖書目錄,

出版信息

  • 版次:1
  • 商品編碼:13162158
  • 叢書名: 面向新工科專業建設計算機系列教材
  • 用紙:膠版紙
  • 頁數:358
  • 字數:551000
  • 正文語種:中文

內容簡介

《數據科學導論(面向新工科專業建設計算機系列教材)》主要介紹數據科學的通識入門知識,可以作為高等院校數據科學與大數據專業的專業基礎課程教材。該書以“建立知識體系、掌握基本原理、學會初級實踐、了解前沿技術”為原則,為數據科學與大數據及相關專業的學生深入學習數據科學和大數據技術奠定基礎。該書系統講授數據科學的基本概念和知識體系、數據分析的基本流程和方法(包括數據預處理、回歸、聚類、分類等智慧型分析技術)、大數據分析的基本T具,並以Python語言為例,通過大量實例和練習講授初級的數據分析技術。該書通過系統全面的理論介紹與豐富翔實的程式實踐相結合,幫助數據科學與大數據及相關專業的學生樹立大數據意識,學習數據科學的知識體系,掌握基本的數據處理方法。
  《數據科學導論(面向新工科專業建設計算機系列教材)》適合作為數據科學與大數據及相關專業學生的教材,也可作為大數據開發工程師的參考書。

圖書目錄

第1章 數據科學概論
1.1 數據和大數據
1.1.1 數據
1.1.2 數據化進程
1.1.3 大數據
1.2 數據科學理論基礎
1.2.1 數據科學發展歷程
1.2.2 數據科學的概念
1.2.3 數據科學的主要內容
1.3 數據科學套用實踐
1.3.1 數據科學家
1.3.2 數據科學工作流程
1.3.3 數據科學實踐案例
1.4 小結
1.4.1 本章總結
1.4.2 擴展閱讀材料
1.5 習題
1.6 參考資料
第2章 數學基礎
2.1 線性代數
2.1.1 向量
2.1.2 矩陣
2.1.3 矩陣導數
2.1.4 實例:利用SVD進行評分預測
2.2 機率統計
2.2.1 隨機事件與機率
2.2.2 條件機率與事件獨立性
2.2.3 隨機變數及其數字特徵
2.2.4 數理統計
2.2.5 資訊理論
2.2.6 實例:利用樸素貝葉斯算法進行文本分類
2.3 最佳化理論
2.3.1 基本概念
2.3.2 最佳化問題的一般形式
2.3.3 最佳化方法
2.3.4 實例:SVM分類器
2.4 圖論基礎
2.4.1 圖的定義
2.4.2 圖的概念
2.4.3 圖的矩陣表示
2.4.4 拉普拉斯矩陣與譜
2.4.5 實例:譜聚類算法
2.5 小結
2.5.1 本章總結
2.5.2 擴展閱讀材料
2.6 習題
2.7 參考資料
第3章 Python語言初步
3.1 Python語言概述
3.1.1 Python語言簡介
3.1.2 Python語言環境搭建
3.2 Python的基本用法
3.2.1 列表與元組
3.2.2 字元串
3.2.3 字典
3.2.4 條件與循環語句
3.2.5 函式
3.2.6 檔案
3.2.7 綜合實例
3.3 重要庫的使用方法與案例
3.3.1 NumPy
3.3.2 Pandas
3.3.3 SciPy
3.3.4 Matplotlib
3.4小結124
3.4.1本章總結124
3.4.2擴展閱讀材料125
3.5習題125
3.6參考資料126
第4章數據預處理127
4.1數據預處理概述127
4.1.1數據預處理的意義與目標127
4.1.2背景知識128
4.1.3數據可視化實例130
4.2數據清洗133
4.2.1缺失值處理133
4.2.2噪聲平滑136
4.2.3異常值的檢測與處理137
4.3數據集成140
4.3.1實體識別問題141
4.3.2檢測和解決數據值衝突141
4.3.3冗餘數據與相關分析141
4.3.4元組重複143
4.4數據歸約144
4.4.1數據歸約策略144
4.4.2維歸約145
4.4.3數量歸約148
4.5數據變換150
4.5.1數據變換策略150
4.5.2規範化150
4.5.3離散化153
4.5.4標稱數據的概念分層生成155
4.6數據預處理實踐156
4.7小結167
4.7.1本章總結167
4.7.2擴展閱讀材料168
4.8習題168
4.9參考資料169
第5章分析方法初步170
5.1機器學習基礎170
5.1.1何為機器學習170
5.1.2基本術語171
5.1.3模型評估與性能度量172
5.1.4發展歷程177
5.2Sklearn庫基本使用178
5.2.1Sklearn庫簡介178
5.2.2基本使用介紹178
5.3回歸184
5.3.1線性回歸184
5.3.2Logistic回歸187
5.3.3其他回歸模型190
5.4分類191
5.4.1決策樹191
5.4.2K近鄰算法195
5.4.3樸素貝葉斯197
5.4.4支持向量機199
5.5聚類202
5.5.1概述202
5.5.2原型聚類203
5.5.3密度聚類207
5.5.4層次聚類209
5.6神經網路212
5.6.1神經元模型212
5.6.2感知機與多層神經網路213
5.6.3誤差逆傳播算法215
5.6.4深度學習217
5.7集成學習219
5.7.1概述219
5.7.2序列化方法221
5.7.3並行化方法223
5.8小結224
5.8.1本章總結225
5.8.2擴展閱讀材料225
5.9習題226
5.10參考資料226
第6章數據科學實踐228
6.1數據分析流程228
6.1.1數據挖掘目標228
6.1.2數據採樣228
6.1.3數據預處理229
6.1.4數據探索230
6.1.5數據建模230
6.1.6數據分析工具230
6.2案例1——Kaggle Titanic生存預測231
6.2.1數據挖掘目標231
6.2.2數據導入和預處理231
6.2.3數據探索235
6.2.4模型構建236
6.3案例2——客戶價值分析238
6.3.1數據挖掘目標238
6.3.2數據導入和預處理238
6.3.3數據探索242
6.3.4模型構建242
6.4案例3——時間序列預測244
6.4.1數據挖掘目標244
6.4.2數據導入244
6.4.3數據探索245
6.4.4模型構建250
6.5案例4——價格預測挑戰253
6.5.1數據挖掘目標253
6.5.2數據導入和預處理253
6.5.3數據探索和模型構建255
6.6小結257
6.6.1本章總結257
6.6.2擴展閱讀材料257
6.7習題257
6.8參考資料258
第7章數據科學的重要研究領域259
7.1文本分析259
7.1.1文本分析簡介259
7.1.2文本分析的任務與方法261
7.1.3知識圖譜266
7.1.4文本分析的套用269
7.2圖像視頻分析271
7.2.1圖像視頻分析簡介272
7.2.2圖像分析的任務與方法273
7.2.3視頻分析的任務與方法276
7.2.4圖像視頻分析的套用278
7.3網路分析281
7.3.1網路結構分析281
7.3.2複雜網路283
7.3.3社交網路分析287
7.3.4異質信息網路分析292
7.4可視化分析295
7.4.1可視化分析簡介295
7.4.2可視化分析套用場景296
7.4.3可視化分析工具301
7.5小結306
7.5.1本章總結306
7.5.2擴展閱讀材料307
7.6習題307
7.7參考資料308
第8章大數據處理技術簡介311
8.1雲計算311
8.1.1雲計算的概念311
8.1.2雲計算的基本特點311
8.1.3雲計算的服務類型312
8.1.4雲計算的部署方式314
8.1.5雲計算與其他計算模式的區別316
8.2雲計算平台317
8.2.1虛擬化技術317
8.2.2虛擬化產品及特點319
8.2.3AWS亞馬遜雲服務321
8.2.4阿里雲323
8.3Hadoop及其生態環境327
8.3.1Hadoop簡介327
8.3.2HDFS檔案系統328
8.3.3YARN資源管理器331
8.3.4MapReduce計算模型334
8.3.5Hadoop生態系統337
8.3.6Hadoop 3.0的新特性340
8.4Spark及其生態環境341
8.4.1Spark簡介341
8.4.2RDD以及DAG調度342
8.4.3Spark生態系統344
8.5套用案例346
8.5.1安裝虛擬機集群環境346
8.5.2運行案例代碼355
8.6小結356
8.6.1本章總結357
8.6.2擴展閱讀材料358
8.7習題358
8.8參考資料358

相關詞條

熱門詞條

聯絡我們