內容簡介
重點介紹數據科學中的新理論和代表性實踐,填補數據科學與大數據技術專業的核心教材的空白。主要內容包括:基礎理論(術語定義、研究目的、發展簡史、理論體系、基本原則、數據科學家)、理論基礎(數據科學的學科地位、統計學、機器學習、數據可視化)、流程與方法(基本歷程、數據加工、數據審計、數據分析、數據可視化、數據故事化、項目管理)、技術與工具(技術體系、MapReduce、Hadoop、Spark、NoSQL與NewSQL、R與Python)、數據產品及開發(主要特徵、關鍵活動、數據柔術、數據能力、數據戰略、數據治理)、典型案例及實踐等。
圖書目錄
第1章基礎理論
如何開始學習
1.1術語定義
1.2研究目的
1.3研究視角
1.4發展簡史
1.5理論體系
1.6基本原則
1.7相關理論
1.8人才類型
如何繼續學習
習題
參考文獻
第2章理論基礎
如何開始學習
2.1數據科學的學科地位
2.2統計學
2.3機器學習
2.4數據可視化
如何繼續學習
習題
參考文獻
第3章流程與方法
如何開始學習
3.1基本流程
3.2數據加工
3.3數據審計
3.4數據分析
3.5數據可視化
3.6數據故事化
3.7數據科學項目管理
3.8數據科學中的常見錯誤
如何繼續學習
習題
參考文獻
第4章技術與工具
如何開始學習
4.1數據科學的技術體系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL與NewSQL
4.6R與Python
4.7發展趨勢
如何繼續學習
習題
參考文獻
第5章數據產品及開發
如何開始學習
5.1定義
5.2主要特徵
5.3關鍵活動
5.4數據柔術
5.5數據能力
5.6數據戰略
5.7數據治理
5.8數據安全、隱私、道德與倫理
如何繼續學習
習題
參考文獻
第6章典型案例及實踐
如何開始學習
6.1統計分析
6.2機器學習
6.3數據可視化
6.4Spark編程
6.52012年美國總統大選
如何繼續學習
習題
參考文獻
附錄A本書例題的R語言版代碼
附錄B數據科學的重要資源
附錄C術語索引
後記
圖
圖11DIKW金字塔模型3
圖12數據與數值的區別4
圖13數位訊號與模擬信號4
圖142008—2015年全球數據規模及類型的估計6
圖15大數據的特徵7
圖16大數據的本質8
圖17人工智慧、機器學習和深度學習的區別與聯繫10
圖18DIKUW模型及套用11
圖19數據洞見12
圖110業務數據化與數據業務化12
圖111常用驅動方式13
圖112數據的層次性13
圖113大數據生態系統示意圖14
圖114數據科學的新研究視角15
圖115Gartner技術成熟度曲線16
圖116數據科學的萌芽期(1974—2009年)17
圖117數據科學的快速發展期(2010—2013年)18
圖118數據科學的逐漸成熟期(2014年至今)19
圖119數據科學的理論體系20
圖120數據科學的主要內容20
圖121數據科學的“三世界原則”22
圖122數據科學的“三個要素”及“3C精神”23
圖123計算密集型套用與數據密集型套用的區別24
圖124數據範式與知識範式的區別25
圖125數據管理範式的變化25
圖126數據的“資產”屬性26
圖127常用驅動方式28
圖128CAPTCHA方法的套用28
圖129ReCAPTCHA項目29
圖130數據與算法之間的關係30
圖131BellKors Pragmatic Chaos團隊獲得Netflix獎30
圖132Netflix獎公測結果31
圖133數據科學與商務智慧型的區別與聯繫32
圖134數據科學與數據工程在企業套用中的區別與聯繫33
圖135數據科學人才類型及其收入33
圖136RStudio中編輯Markdown的視窗35
圖137數據科學家團隊38
圖138大數據人才應具備的不同知識結構40
圖139學習數據科學的四則原則43
圖21數據科學的理論基礎50
圖22統計方法的分類(行為目的與思路方式視角)52
圖23統計學中的數據推斷53
圖24數據統計方法的類型(方法論視角)53
圖25數據統計基本方法54
圖26元分析與基本分析54
圖28GFT估計與實際數據的誤差(2013年2月)56
圖29大數據時代的思維模式的轉變58
圖210西洋雙陸棋58
圖211機器人駕駛58
圖212機器學習的基本思路59
圖213機器學習的三要素61
圖214機器學習的類型62
圖215KNN算法的基本步驟63
圖216決策樹示例——識別鳥類65
圖217感知器示例67
圖218前向神經網路67
圖219歸納學習與分析學習70
圖220增強學習70
圖221機器學習的類型71
圖222IBM Watson72
圖223Pepper機器人73
圖224機器學習中的數據73
圖225Anscombe四組數據的可視化77
圖226John Snow的鬼地圖(Ghost Map)78
圖227在Tableau中加利福尼亞州政府收入來源數據的可視化79
圖31數據科學的基本流程83
圖32量化自我84
圖33規整數據與乾淨數據的區別85
圖34規整數據示意圖86
圖35殘差89
圖36數據分析的類型90
圖37Analytics 1.0~3.091
圖38數據加工方法92
圖39數據審計與數據清洗93
圖310缺失數據處理的步驟94
圖311冗餘數據處理的方法94
圖312數據分箱處理的步驟與類型96
圖313均值平滑與邊界值平滑96
圖314內容集成98
圖315結構集成99
圖316數據脫敏處理100
圖317數據連續性的定義及重要性104
圖318可視化審計示例106
圖319Gartner分析學價值扶梯模型106
圖320冰激凌的銷售量與謀殺案的發生數量108
圖321數據分析的類型110
圖322拿破崙進軍俄國慘敗而歸的歷史事件的可視化111
圖323可視分析學的相關學科111
圖324可視分析學模型112
圖325數據可視化的方法體系113
圖326視覺圖形元素與視覺通道113
圖327雷達圖示例114
圖328齊美爾連帶114
圖329視覺隱喻的示例——美國政府機構的設定114
圖330捷運路線圖的創始人Henry Beck115
圖332視覺突出的示例116
圖333完圖法則的示例117
圖334視覺通道的選擇與展示119
圖335視覺通道的精確度對比119
圖336視覺通道的可辨認性——某公司產品銷售示意圖120
圖337視覺通道的可分離性差120
圖338上下文導致視覺假象1121
圖339上下文導致視覺假象2121
圖340對亮度和顏色的相對判斷容易造成視覺假象的示例121
圖341數據可視化表達與數據故事化描述126
圖342數據的故事化描述及故事的展現127
圖343項目管理的主要內容130
圖344數據科學項目的基本流程131
圖412017大數據產業全景圖140
圖42大數據參考架構142
圖43MapReduce執行過程144
圖44MapReduce對中間數據的處理148
圖45以MapReduce為核心和以YARN為核心的軟體棧對比150
圖46下一代MapReduce框架151
圖47Apache的Hadoop項目151
圖48Hadoop生態系統152
圖49Hadoop MapReduce數據處理過程153
圖410Apache Hive官方網站155
圖411Apache Pig官方網站156
圖412Apache Mahout官方網站157
圖413Apache HBase官方網站157
圖414HBase與Hadoop項目158
圖415HBase的邏輯模型159
圖416Apache ZooKeeper官方網站160
圖417Apache Flume官方網站161
圖418Apache Sqoop官方網站162
圖419Spark 技術架構163
圖420Spark的基本流程164
圖421Spark的執行步驟169
圖422Lambda 架構的主要組成部分171
圖423傳統關係資料庫的優點與缺點172
圖424關係資料庫技術與NoSQL技術之間的關係174
圖425NoSQL數據分布的兩個基本途徑175
圖426分片處理176
圖427主從複製177
圖428對等複製178
圖429數據不一致性179
圖430CAP理論180
圖431Memcached官方網站183
圖432一致性散列的分配方式184
圖433伺服器增加時的變化184
圖434雲計算的演變過程188
圖435數據管理的新變化190
圖4362016—2018年數據科學相關項目中軟體產品的使用率(%)192
圖4372019年Gartner數據科學和機器學習平台魔力194
圖51數據產品開發中的數據與數據柔術201
圖52知識範式與數據範式203
圖53數據產品的多樣性204
圖54數據產品的層次性205
圖55Google全球商機洞察(Google Global Market Finder)206
圖56數據產品鏈207
圖57傳統產品開發與數據產品開發的區別208
圖58D.J.Patil209
圖59UI(User Interface)設計方案與設計思維210
圖510Google搜尋的用戶體驗211
圖511人與計算機圖像內容識別能力的不同211
圖512Amazon Mechanical Turk平台213
圖513一個HIT的生命周期213
圖514基於人與計算機的數據處理成本曲線214
圖515亞馬遜的數據產品——其他商家(Other Sellers)215
圖516LinkedIn的數據產品——你可能認識的人們(People you may know)216
圖517LinkedIn的數據產品——你的觀眾是誰216
圖518逆向互動定律217
圖519LinkedIn數據產品——崗位推薦219
圖520LinkedIn的數據產品——幫助你的朋友找到工作220
圖521Facebook的良好用戶體驗220
圖522DMM模型基本思路222
圖523CMM基本思想222
圖524CMM成熟度等級224
圖526DMM層級劃分及描述227
圖527IDEAL模型229
圖528組織機構數據管理能力成熟度評估結果的可視化229
圖529數據戰略與數據管理目標的區別230
圖530數據戰略的目標231
圖531數據戰略的側重點231
圖532數據戰略的範疇231
圖533數據管理與數據治理的區別233
圖534IBM提出的企業數據管理的範疇233
圖535數據治理的PDCA模型234
圖536DGI數據治理框架235
圖538從歐洲大陸的空戰中返回的轟炸機238
圖61KMeans算法的基本步驟267
圖62歐巴馬2012年總統競選芝加哥總部287
圖63George Clooney288
圖64Sarah Jessica Parker288
圖65歐巴馬及“快速捐贈計畫”290
圖66歐巴馬通過Reddit與選民互動291
圖672012年美國總統競選財務數據官方網站292
圖A1女性體重與身高的線性回歸分析314
圖A2工資數據的可視化327
圖A3起飛延誤時間339
圖A4到達延誤時間339
圖A5捐助人職業、黨派及捐助額度分析352
圖A6分箱處理後的捐款數據可視化353
圖A7捐款日期與金額的可視化354
圖A8捐款月份與金額變化分析355
圖A9投票結果的可視化357
表
表11結構化數據、非結構化數據與半結構化數據的區別與聯繫5
表12某數據科學家的畫像(Profile)37
表21參數估計與假設檢驗的主要區別53
表22統計學與機器學習的術語對照表57
表23機器學習的相關學科61
表24已知6部電影的類型及其中出現的接吻次數和打鬥次數64
表25已知電影與未知電影的距離64
表26分析學習和歸納學習的比較70
表27Anscombe的四組數據(Anscombes Quartet)76
表31測試數據A86
表32測試數據B86
表33測試數據C86
表34Pew論壇部分人員信仰與收入數據統計(規整化處理之前)87
表35Pew論壇部分人員信仰與收入數據統計(規整化處理之後)87
表36探索性統計中常用的集中趨勢統計量89
表37探索性統計中常用的離散程度統計量89
表38探索性統計中常用的數據分布統計量89
表39常見的數據變換策略97
表310十進制第一數字的使用機率103
表311數據分析中常見錯誤109
表312數據類型及所支持的操作類型118
表313數據類型與視覺通道的對應關係118
表314數據故事化描述應遵循的基本原則128
表315數據科學項目中的主要角色及其任務130
表41Transformation常用函式166
表42Action常用函式166
表43RDD的存儲級別167
表44Spark數據類型和R數據類型之間的映射關係170
表45較有代表性的雲資料庫產品174
表46NoSQL資料庫中常用的數據模型175
表47R與Python對比186
表48雲計算的基本類型189
表49排名前10位數據科學產品的使用率及變化情況/%194
表51數據轉換與數據加工的區別202
表52Google公司的十大產品與服務202
表53數據管理成熟度模型的過程域分類226
表54信息系統安全等級及保護基本要求237
表55腎結石治療數據分析——兩種治療方案的分別統計240
表56兩種治療方案的匯總統計240
表61數據集women248
表62Protein數據集266
表63工資信息274
表64各欄位的名稱及含義292
表A1Spark版本差異性331
表A2Spark與R的數據類型對比332
表A3SparkR與sparklyr比較340