內容簡介
本書重點講解數據科學的核心理論與代表性實踐,在編寫過程中充分借鑑了國外著名大學設立的相關課程以及全球暢銷的外文專著,而且也考慮到了國內相關課程定位與專業人才的培養需求。
目錄
目錄
第1章基礎理論
如何開始學習
1.1術語定義
1.2研究目的
1.3發展簡史
1.4理論體系
1.5基本原則
1.6數據科學家
如何繼續學習
習題
參考文獻
第2章理論基礎
如何開始學習
2.1數據科學的學科地位
2.2統計學
2.3機器學習
2.4數據可視化
如何繼續學習
習題
參考文獻
第3章流程與方法
如何開始學習
3.1基本流程
3.2數據加工
3.3數據審計
3.4數據分析
3.5數據可視化
3.6數據故事化
3.7項目管理
如何繼續學習
習題
參考文獻
第4章技術與工具
如何開始學習
4.1技術體系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL與NewSQL
4.6R與Python
4.7發展趨勢
如何繼續學習
習題
參考文獻
第5章數據產品及開發
如何開始學習
5.1定義
5.2主要特徵
5.3關鍵活動
5.4數據柔術
5.5數據能力
5.6數據戰略
5.7數據治理
如何繼續學習
習題
參考文獻
第6章典型案例及實踐
如何開始學習
6.12012年美國總統大選
6.2統計分析
6.3機器學習
6.4數據可視化
6.5SparkR編程
如何繼續學習
習題
參考文獻
附錄AR語言學習筆記與參考手冊
學習與參考指南
1.R變數定義方法
2.R語句的寫法
3.R中的賦值語句
4.R的檔案讀寫路徑——當前工作目錄
5.R的變數查找機制——搜尋路徑
6.R中查看幫助的方法
7.R區分大小寫字母
8.R的注釋
9.R的語句
10.R中的變數命名規範
11.R中的關鍵字/保留字
12.R中的默認數據類型
14.R中的向量
15.R中的列表
16.R中的數據框
17.R中的因子類型
18.R中的循環語句
19.R中的選擇語句
20.R中的特殊運算符
21.R中的快速生成數列的方法
22.R中自定義函式
23.R中常用的數學函式
24.R中的字元串處理函式
25.R中的常用統計函式
26.R中的隨機數
27.R包的用法
28.R中的矩陣
29.R中的數組
30.R中的面向對象編程
31.R中的S4類
32.R中的數據可視化
33.R的輸入輸出
34.R中的正則表達式
35.R的數據集
36.R第三方包——R的靈魂
37.基於R的數據加工
附錄B數據科學的重要資源
1.學術期刊
2.國際會議
3.研究機構
4.課程資源
5.碩士學位項目
6.專家學者
7.相關工具
附錄C術語索引
後記
圖目錄
圖11DIKW金字塔2
圖12數據與數值的區別3
圖13大數據的本質4
圖14大數據的特徵5
圖15DIKUW模型及套用8
圖16數據洞見8
圖17業務數據化與數據業務化9
圖18常用驅動方式9
圖19數據的層次性9
圖110大數據生態系統10
圖111Gartner技術成熟度曲線11
圖112數據科學的萌芽期(1974—2009年)11
圖113數據科學的快速發展期(2010—2013年)12
圖114數據科學的逐漸成熟期(2014年至今)13
圖115數據科學的理論體系14
圖116數據科學的主要內容15
圖117數據科學的“三世界原則”16
圖118數據科學的“三個要素”及“3C精神”17
圖119數據範式與知識範式的區別18
圖120數據管理範式的變化18
圖121大數據的資產屬性19
圖122常用驅動方式20
圖123CAPTCHA項目21
圖124ReCAPTCHA項目21
圖125數據與算法之間的關係22
圖126BellKorsPragmaticChaos團隊獲得Netflix獎23
圖127Netflix獎公測結果23
圖128RStudio中編輯Markdown的視窗25
圖129數據科學家團隊28
圖130學習數據科學的四則原則29
圖21數據科學的理論基礎35
圖22統計方法的分類(目的與思路視角)37
圖23統計學中的數據推斷37
圖24數據統計方法的類型(方法論視角)38
圖25數據統計基本方法38
圖26元分析與基本分析39
圖28GFT估計與實際數據的誤差(2013年2月)40
圖29大數據時代的思維模式的轉變41
圖210西洋雙陸棋42
圖211自動駕駛42
圖212機器學習的基本思路42
圖213機器學習的三要素44
圖214機器學習的類型45
圖215KNN算法的基本步驟46
圖216決策樹示例——識別鳥類48
圖217感知器示例50
圖218前向神經網路50
圖219歸納學習與分析學習52
圖220增強學習53
圖221IBMWatson54
圖222Pepper機器人54
圖223機器學習及其套用55
圖224Anscombe四組數據的可視化57
圖225JohnSnow的鬼地圖(GhostMap)58
圖31數據科學的基本流程62
圖32量化自我63
圖33整齊數據與乾淨數據的區別64
圖34整齊數據示意圖64
圖35殘差67
圖36數據分析的類型68
圖37Analytics1.0~3.069
圖38數據加工方法70
圖39數據審計與數據清洗71
圖310缺失數據的處理步驟72
圖311冗餘數據的處理方法72
圖312數據分箱處理的步驟與類型73
圖313均值平滑與邊界值平滑74
圖314內容集成76
圖315結構集成76
圖316數據脫敏處理77
圖317數據連續性的定義及重要性81
圖318可視化審計82
圖319Gartner分析學價值扶梯模型83
圖320冰激凌的銷量與謀殺案的發生數量84
圖321數據分析的類型86
圖322拿破崙進軍俄國慘敗而歸的歷史事件的可視化87
圖323可視化分析學的相關學科87
圖324可視化分析學模型88
圖325數據可視化的方法體系89
圖326視覺圖形元素與視覺通道89
圖327雷達圖示例89
圖328齊美爾連帶89
圖329視覺隱喻的示例——美國政府機構的設定90
圖330捷運路線圖的創始人HenryBeck91
圖332視覺突出的示例92
圖333完圖法則的示例92
圖334視覺通道的選擇與展示94
圖335視覺通道的精確度對比94
圖336視覺通道的可辨認性——某公司產品銷售示意圖95
圖337視覺通道的可分離性差95
圖338上下文導致視覺假象196
圖339上下文導致視覺假象296
圖340對亮度和顏色的相對判斷容易造成視覺假象的示例96
圖341數據可視化與數據故事化描述97
圖342數據的故事化描述及故事的展現98
圖343項目管理的主要內容101
圖344數據科學項目的基本流程102
圖41大數據產業全景圖107
圖42基礎設施108
圖43分析工具109
圖44企業套用109
圖45行業套用110
圖46跨平台基礎設施和分析工具110
圖47開源系統111
圖48數據源與Apps111
圖49數據資源111
圖410MapReduce執行過程113
圖411MapReduce對中間數據的處理116
圖412以MapReduce為核心和以YARN為核心的軟體棧對比118
圖413下一代MapReduce框架118
圖413下一代MapReduce框架118
圖414ApacheHadoop官網119
圖415ApacheHadoop生態系統119
圖416HadoopMapReduce數據處理流程121
圖417ApacheHive官網122
圖418ApachePig官網123
圖419ApacheMahout官網124
圖420ApacheHBase官網125
圖421HBase與Hadoop項目125
圖422HBase邏輯模型126
圖423ApacheZookeeper官網127
圖424ApacheFlume官網127
圖425ApacheSqoop官網128
圖426Spark技術架構130
圖427Spark執行流程130
圖428SparkScheduler134
圖429傳統關係資料庫的優點與缺點136
圖430關係資料庫與NoSQL資料庫之間的關係138
圖431NoSQL數據分布的兩個基本途徑139
圖432分片處理140
圖433主從複製141
圖434對等複製142
圖435數據不一致性142
圖436CAP理論143
圖437Memcached官網146
圖438一致性散列的分配方式147
圖439伺服器增加時的變化147
圖440計算模式的演變150
圖441數據管理的新變化152
圖51數據產品開發中的數據與數據柔術157
圖52數據產品開發與數據柔術160
圖53數據產品的多樣性160
圖54數據產品的層次性161
圖55Google全球商機洞察(Global Market Finder)162
圖56數據產品鏈162
圖57傳統產品開發與數據產品開發的區別163
圖58D J Patil164
圖59UI(User Interface)設計方案與設計思維165
圖510Goolge搜尋的用戶體驗166
圖511人與計算機圖像內容識別能力的不同166
圖512Amazon MTurk平台168
圖513HIT生命周期168
圖514基於人與計算機的數據處理成本曲線169
圖515亞馬遜數據產品: 其他商家(Other Sellers)170
圖516LinkedIn的數據產品——你可能認識的人們(People You May Know)170
圖517LinkedIn的數據產品——你的觀眾是誰171
圖518逆向互動定律172
圖519LinkedIn數據產品——職位推薦174
圖520LinkedIn的數據產品——幫助你的朋友找到工作174
圖521Facebook的良好用戶體驗175
圖522DMM基本思路175
圖523CMM基本思想177
圖524CMM成熟度等級177
圖526DMM層級劃分及描述180
圖527IDEAL模型182
圖528機構數據管理能力成熟度評估結果的可視化182
圖529數據戰略與目標的區別183
圖530數據戰略的目標183
圖531數據戰略的側重點184
圖532數據戰略的影響因素184
圖533數據管理與數據治理的區別185
圖534IBM提出的企業數據管理的範疇186
圖535數據治理的PDCA模型187
圖536DGI數據治理框架188
圖61歐巴馬2012年總統競選芝加哥總部191
圖62George Clooney192
圖63Sarah Jessica Parker192
圖64歐巴馬及快速捐贈計畫193
圖65歐巴馬通過Reddit與選民互動195
圖66女性體重與身高的線性回歸分析198
圖67KMeans算法的基本步驟208
圖68工資數據的可視化215
圖69起飛延誤時間227
圖610落地延誤時間227
圖附A1如何參考附錄A232
表目錄
表11結構化數據、非結構化數據與半結構化數據的區別與聯繫3
表12某數據科學家的畫像(Profile)27
表21參數估計與假設檢驗37
表22機器學習的相關學科45
表23已知6部電影的類型及片中出現的接吻和打鬥次數47
表24已知電影與未知電影的距離47
表25分析學習和歸納學習的比較52
表26Anscombe四組數據(Anscombes Quartet)56
表31測試數據A65
表32測試數據B65
表33測試數據C65
表34Pew論壇部分人員信仰與收入數據統計(整齊化處理之前)65
表35Pew論壇部分人員信仰與收入數據統計(整齊化處理之後)66
表36探索性統計中常用的集中趨勢統計量67
表37探索性統計中常用的離散程度統計量67
表38探索性統計中常用的數據分布統計量67
表39數據變換的類型74
表310十進制首位數字的出現機率80
表311數據分析中常見錯誤85
表312數據類型及所支持的操作類型93
表313數據類型與視覺通道的對應關係圖93
表314數據故事化中的“應該”與“不應該”99
表315數據科學項目中的主要角色及其任務101
表41RDD常用的Transformation132
表42RDD常用的Actions132
表43RDD的存儲級別133
表44R與Spark數據類型的映射關係135
表45典型雲資料庫產品138
表46NoSQL中常用的數據模型139
表47R與Python對比149
表48雲計算的層次性151
表51數據轉換與數據加工的區別158
表52谷歌十大產品與服務158
表53數據管理成熟度模型的過程域分類179
表61數據集Women195
表62Protein數據集206
表63Salaries數據集213
表64Spark版本差異性220
表65Spark與R的數據類型對比220
表66SparkR與sparklyr比較228