數據科學導論(2020年清華大學出版社出版的圖書)

本詞條是多義詞,共3個義項
更多義項 ▼ 收起列表 ▲

《數據科學導論》是2020年清華大學出版社出版的圖書,作者是黃曉林、劉斌、劉欽、陳穎、葛雲。

基本介紹

  • 中文名:數據科學導論
  • 作者:黃曉林、劉斌、劉欽、陳穎、葛雲
  • 出版社:清華大學出版社
  • 出版時間:2020年10月1日
  • 定價:45 元
  • ISBN:9787302561699
內容簡介,圖書目錄,

內容簡介

本書通過完整、規範的數據科學項目的流程來組織全書體系結構,涵蓋數據科學項目的全過程,包括問題提出與目標制定、凝練前提假設和設計數據方案、探索性數據分析、建模與分析、性能評價、結果詮釋與展示。佐以豐富的案例分析和模擬項目訓練,啟發學生主動思考,培養學生在實踐中樹立嚴謹的科學思維方式及數據科學流程。 本書除了可作為本科生數據科學基礎課、理工通識課教材外,還面向所有對數據科學有濃厚興趣的人群,以及各行各業中有大體量數據分析需求的人群。

圖書目錄

第1章緒論
1.1為什麼要研究數據科學
1.2基本概念
1.2.1數據
1.2.2大數據
1.2.3數據科學
1.3數據科學項目涉及的人員及其任務
1.4數據科學項目流程
1.4.1確定問題
1.4.2制定目標
1.4.3蒐集數據
1.4.4探索性數據分析
1.4.5建立模型
1.4.6性能評價
1.4.7結果展示
1.4.8部署模型
1.5數據科學項目中的數據流
1.6本書內容、採用工具和目標人群
思考題
第2章問題與目標
2.1用戶層面的問題與目標
2.2數據科學層面的問題與目標
思考題
第3章數據獲取
3.1前提假設與數據方案設計
3.1.1前提假設
3.1.2數據方案設計
3.1.3數據獲取的可行性分析
3.1.4確定數據構成
3.2總體和抽樣
3.2.1總體和個體
3.2.2樣本
3.2.3無偏抽樣
3.2.4抽樣偏差
3.3混雜因素和A/B Testing
3.3.1混雜因素和辛普森悖論
3.3.2雙盲實驗和A/B Testing
思考題
第4章Python基礎
4.1Python的下載與安裝
4.2常用工具包的下載與安裝
4.3Jupyter Notebook
4.4Python的常用數據結構
4.4.1列表
4.4.2元組
4.4.3字典
4.4.4集合
4.4.5numpy.ndarray
4.4.6Pandas.DataFrame
4.5Python基本語法
4.5.1基本命令
4.5.2控制流和相關語法
4.6Python數據導入
4.6.1本地數據導入
4.6.2線上數據導入
4.6.3數據的連續流載入
第5章探索性數據分析
5.1數據檢查
5.1.1數據的意義及規模
5.1.2特徵的數據類型及意義
5.1.3初步排除數據泄露
5.2數據預處理
5.2.1缺失處理
5.2.2異常處理
5.2.3冗餘處理
5.3描述性統計
5.3.1位置性測度
5.3.2離散性測度
5.3.3圖形化描述統計
思考題
第6章建模與性能評價
6.1統計建模
6.1.1常見的機率密度函式
6.1.2參數估計
6.1.3假設檢驗
6.1.4phacking
6.2回歸模型
6.2.1線性回歸模型
6.2.2線性回歸模型性能評價
6.2.3線性回歸與線性相關
6.2.4邏輯回歸
6.2.5訓練集測試集劃分
6.2.6套用非數值特徵作為輸入時的onehot編碼
6.3樸素貝葉斯模型
6.3.1貝葉斯定理
6.3.2高斯模型
6.3.3多項式模型
6.3.4伯努利模型
6.4分類模型的性能評價
6.4.1混淆矩陣
6.4.2指標權衡
6.4.3套用舉例
6.4.4參數區分性能評價
6.5決策樹
6.5.1決策樹工作原理
6.5.2分類任務決策樹的建模過程
6.5.3分類決策樹套用舉例
6.6有監督學習模型與無監督學習模型
6.7Kmeans模型
6.7.1兩個基本概念
6.7.2Kmeans疊代算法
6.8偏差方差權衡
6.8.1偏差方差困境
6.8.2過擬合與欠擬合
6.8.3K折交叉驗證
6.9參數的格線搜尋
6.10集成學習
6.10.1孔多塞陪審團定理
6.10.2決策樹集成
思考題
第7章結果展示
7.1區分面向對象的結果展示
7.1.1面向出資方的結果展示
7.1.2面向用戶的結果展示
7.1.3面向數據科學家的結果展示
7.2展示過程中的可視化
7.2.1展示可視化的兩個層面
7.2.2展示可視化的三點基本原則
結語
參考文獻

相關詞條

熱門詞條

聯絡我們