數據科學導論(2021年人民郵電出版社出版的圖書)

本詞條是多義詞,共3個義項
更多義項 ▼ 收起列表 ▲

《數據科學導論》是2021年人民郵電出版社出版的圖書,作者是朝樂門。

基本介紹

  • 中文名:數據科學導論
  • 作者:朝樂門
  • 出版社:人民郵電出版社
  • 出版時間:2021年
  • ISBN:9787115548207
內容簡介,圖書目錄,作者簡介,

內容簡介

本書重點講解數據科學的核心理論與實踐套用。全書共7章,主要介紹數據科學的基礎理論、統計學與模型、機器學習與算法、數據可視化、數據加工、大數據技術、數據產品開發及數據科學中的人文與管理等內容。本書內容通俗易懂,深入淺出,便於讀者理解。
本書可作為數據科學與大數據技術、大數據管理與套用、計算機科學與技術、管理科學與工程、工商管理、數據統計、數據分析、信息管理與信息系統、商業分析等多個專業的教材,也可作為數據科學從業人士的參考用書。

圖書目錄

第 1章 數據科學的基礎理論 1
1.1 為什麼要學習數據科學 1
1.2 數據科學的定義 4
1.3 數據科學的知識體系 6
1.4 數據科學的基本流程 8
1.5 數據科學與其他學科的區別 11
1.5.1 學科定位 11
1.5.2 研究視角 13
1.5.3 研究範式 13
1.6 數據科學的人才類型 16
1.7 數據科學的常用工具 19
1.8 數據科學的相關套用 21
1.9 繼續學習本章知識 23
習題 26
第 2章 統計學與模型 29
2.1 統計學與數據科學 29
2.1.1 描述統計與推斷統計 30
2.1.2 基本分析法和元分析法 31
2.2 統計方法的選擇思路 32
2.3 數據劃分及準備方法 33
2.3.1 自變數與因變數 34
2.3.2 數據抽樣 35
2.4 參數估計與假設檢驗 37
2.4.1 參數估計 37
2.4.2 假設檢驗 38
2.5 常用統計方法及選擇 39
2.5.1 相關分析 39
2.5.2 回歸分析 41
2.5.3 方差分析 41
2.5.4 分類分析 42
2.5.5 聚類分析 43
2.5.6 時間序列分析 44
2.5.7 關聯規則分析 44
2.6 統計學面臨的挑戰 45
2.7 Python編程實踐 45
2.8 繼續學習本章知識 53
習題 55
第3章 機器學習與算法 57
3.1 數據科學與機器學習 57
3.2 機器學習的套用步驟 60
3.3 數據劃分及準備方法 61
3.4 算法類型及選擇方法 62
3.5 模型的評估方法 64
3.6 機器學習面臨的挑戰 67
3.7 Python編程實踐 68
3.8 繼續學習本章知識 77
習題 79
第4章 數據可視化 81
4.1 數據科學與數據可視化 81
4.2 數據可視化的基本原則 84
4.3 視覺編碼與數據類型 84
4.4 可視分析學 87
4.5 常用統計圖表 89
4.6 數據可視化的發展趨勢 92
4.7 Python編程實踐 93
4.8 繼續學習本章知識 97
習題 98
第5章 數據加工 100
5.1 數據科學與數據加工 100
5.2 探索性數據分析 101
5.3 數據大小及標準化 103
5.4 缺失數據及其處理方法 104
5.5 噪聲數據及其處理方法 105
5.5.1 離群點處理 105
5.5.2 分箱處理 106
5.6 數據維度及其降維處理方法 108
5.6.1 特徵選擇 109
5.6.2 主成分分析 110
5.7 數據脫敏及其處理方法 110
5.8 數據形態及其規整化方法 112
5.9 Python編程實踐 115
5.10 繼續學習本章知識 121
習題 122
第6章 大數據技術 124
6.1 數據科學與大數據技術 124
6.2 Hadoop生態系統 125
6.3 大數據計算技術與Spark 128
6.3.1 大數據計算與Lambda
架構 128
6.3.2 Spark的出現及其特點 129
6.3.3 Spark的計算流程 131
6.3.4 Spark的關鍵技術 132
6.4 大數據管理技術與MongoDB 136
6.4.1 關係資料庫及其優缺點 136
6.4.2 NoSQL及其數據模型 139
6.4.3 CAP理論與BASE原則 140
6.4.4 分片技術與複製技術 141
6.4.5 MongoDB 144
6.5 大數據分析技術 150
6.5.1 Analytics 3.0 150
6.5.2 Gartner分析學價值扶梯模型 152
6.5.3 數據分析中的陷阱 152
6.6 Python編程實踐 154
6.7 繼續學習本章知識 165
習題 167
第7章 數據產品開發及數據科學中的人文與管理 171
7.1 數據產品開發及數據科學的人文與管理屬性 171
7.2 數據產品及開發 172
7.3 數據科學的項目管理 174
7.3.1 數據科學項目中的主要角色 174
7.3.2 數據科學項目中的主要活動 175
7.4 數據能力 176
7.4.1 關鍵過程域 177
7.4.2 成熟度等級 179
7.4.3 成熟度評價 181
7.5 數據治理 183
7.5.1 主要內容 183
7.5.2 基本過程 184
7.5.3 參考框架 185
7.6 數據安全 186
7.6.1 信息系統安全等級保護 186
7.6.2 P2DR模型 187
7.7 數據偏見 187
7.7.1 數據來源選擇偏見 188
7.7.2 數據加工和準備偏見 189
7.7.3 算法與模型選擇偏見 189
7.7.4 分析結果的解讀和呈現上的偏見 189
7.8 數據倫理與道德 190
7.9 繼續學習本章知識 191
習題 191
術語索引 193
參考文獻 198

作者簡介

中國人民大學副教授,博士生導師;國家精品開放線上課程《數據科學導論》負責人;中國計算機學會信息系統專委員會委員、全國高校人工智慧與大數據創新聯盟專家委員會副主任、國際信息學院聯盟iSchools數據科學課程專委會委員、全國高校大數據教育聯盟大數據教材專家指導委員會委員、《計算機科學》執行編委;獲得國家自然科學基金項目優秀項目、數據科學50人、全國高校大數據教育傑出貢獻獎、IBM全球卓越教師獎、中國大數據學術創新獎、中國大數據創新百人榜單、全國高校人工智慧與大數據學術創新獎等多種獎勵30餘項。主持完成國家自然科學基金、國家社會科學基金等重要科學研究項目10餘項;參與完成核高基、973、863、國家自然科學基金重點項目等10餘項。

相關詞條

熱門詞條

聯絡我們