數據科學理論與實踐

數據科學理論與實踐

《數據科學理論與實踐》是2017年清華大學出版社出版的圖書，作者是朝樂門。

基本介紹

中文名：數據科學理論與實踐
作者：朝樂門
出版社：清華大學出版社
出版時間：2017年11月01日
定價：59 元
ISBN：9787302480549
印次：1-1

內容簡介,目錄,

內容簡介

本書重點講解數據科學的核心理論與代表性實踐，在編寫過程中充分借鑑了國外著名大學設立的相關課程以及全球暢銷的外文專著，而且也考慮到了國內相關課程定位與專業人才的培養需求。

目錄

目錄

第1章基礎理論

如何開始學習

1.1術語定義

1.2研究目的

1.3發展簡史

1.4理論體系

1.5基本原則

1.6數據科學家

如何繼續學習

習題

參考文獻

第2章理論基礎

如何開始學習

2.1數據科學的學科地位

2.2統計學

2.3機器學習

2.4數據可視化

如何繼續學習

習題

參考文獻

第3章流程與方法

如何開始學習

3.1基本流程

3.2數據加工

3.3數據審計

3.4數據分析

3.5數據可視化

3.6數據故事化

3.7項目管理

如何繼續學習

習題

參考文獻

第4章技術與工具

如何開始學習

4.1技術體系

4.2MapReduce

4.3Hadoop

4.4Spark

4.5NoSQL與NewSQL

4.6R與Python

4.7發展趨勢

如何繼續學習

習題

參考文獻

第5章數據產品及開發

如何開始學習

5.1定義

5.2主要特徵

5.3關鍵活動

5.4數據柔術

5.5數據能力

5.6數據戰略

5.7數據治理

如何繼續學習

習題

參考文獻

第6章典型案例及實踐

如何開始學習

6.12012年美國總統大選

6.2統計分析

6.3機器學習

6.4數據可視化

6.5SparkR編程

如何繼續學習

習題

參考文獻

附錄AR語言學習筆記與參考手冊

學習與參考指南

1.R變數定義方法

2.R語句的寫法

3.R中的賦值語句

4.R的檔案讀寫路徑——當前工作目錄

5.R的變數查找機制——搜尋路徑

6.R中查看幫助的方法

7.R區分大小寫字母

8.R的注釋

9.R的語句

10.R中的變數命名規範

11.R中的關鍵字/保留字

12.R中的默認數據類型

13.R中數據類型的判斷與強制類型轉換

14.R中的向量

15.R中的列表

16.R中的數據框

17.R中的因子類型

18.R中的循環語句

19.R中的選擇語句

20.R中的特殊運算符

21.R中的快速生成數列的方法

22.R中自定義函式

23.R中常用的數學函式

24.R中的字元串處理函式

25.R中的常用統計函式

26.R中的隨機數

27.R包的用法

28.R中的矩陣

29.R中的數組

30.R中的面向對象編程

31.R中的S4類

32.R中的數據可視化

33.R的輸入輸出

34.R中的正則表達式

35.R的數據集

36.R第三方包——R的靈魂

37.基於R的數據加工

附錄B數據科學的重要資源

1.學術期刊

2.國際會議

3.研究機構

4.課程資源

5.碩士學位項目

6.專家學者

7.相關工具

附錄C術語索引

後記

圖目錄

圖11DIKW金字塔2

圖12數據與數值的區別3

圖13大數據的本質4

圖14大數據的特徵5

圖15DIKUW模型及套用8

圖16數據洞見8

圖17業務數據化與數據業務化9

圖18常用驅動方式9

圖19數據的層次性9

圖110大數據生態系統10

圖111Gartner技術成熟度曲線11

圖112數據科學的萌芽期（1974—2009年）11

圖113數據科學的快速發展期（2010—2013年）12

圖114數據科學的逐漸成熟期（2014年至今）13

圖115數據科學的理論體系14

圖116數據科學的主要內容15

圖117數據科學的“三世界原則”16

圖118數據科學的“三個要素”及“3C精神”17

圖119數據範式與知識範式的區別18

圖120數據管理範式的變化18

圖121大數據的資產屬性19

圖122常用驅動方式20

圖123CAPTCHA項目21

圖124ReCAPTCHA項目21

圖125數據與算法之間的關係22

圖126BellKorsPragmaticChaos團隊獲得Netflix獎23

圖127Netflix獎公測結果23

圖128RStudio中編輯Markdown的視窗25

圖129數據科學家團隊28

圖130學習數據科學的四則原則29

圖21數據科學的理論基礎35

圖22統計方法的分類（目的與思路視角）37

圖23統計學中的數據推斷37

圖24數據統計方法的類型（方法論視角）38

圖25數據統計基本方法38

圖26元分析與基本分析39

圖27GFT預測與美國疾病控制中心數據的對比40

圖28GFT估計與實際數據的誤差（2013年2月）40

圖29大數據時代的思維模式的轉變41

圖210西洋雙陸棋42

圖211自動駕駛42

圖212機器學習的基本思路42

圖213機器學習的三要素44

圖214機器學習的類型45

圖215KNN算法的基本步驟46

圖216決策樹示例——識別鳥類48

圖217感知器示例50

圖218前向神經網路50

圖219歸納學習與分析學習52

圖220增強學習53

圖221IBMWatson54

圖222Pepper機器人54

圖223機器學習及其套用55

圖224Anscombe四組數據的可視化57

圖225JohnSnow的鬼地圖（GhostMap）58

圖31數據科學的基本流程62

圖32量化自我63

圖33整齊數據與乾淨數據的區別64

圖34整齊數據示意圖64

圖35殘差67

圖36數據分析的類型68

圖37Analytics1.0~3.069

圖38數據加工方法70

圖39數據審計與數據清洗71

圖310缺失數據的處理步驟72

圖311冗餘數據的處理方法72

圖312數據分箱處理的步驟與類型73

圖313均值平滑與邊界值平滑74

圖314內容集成76

圖315結構集成76

圖316數據脫敏處理77

圖317數據連續性的定義及重要性81

圖318可視化審計82

圖319Gartner分析學價值扶梯模型83

圖320冰激凌的銷量與謀殺案的發生數量84

圖321數據分析的類型86

圖322拿破崙進軍俄國慘敗而歸的歷史事件的可視化87

圖323可視化分析學的相關學科87

圖324可視化分析學模型88

圖325數據可視化的方法體系89

圖326視覺圖形元素與視覺通道89

圖327雷達圖示例89

圖328齊美爾連帶89

圖329視覺隱喻的示例——美國政府機構的設定90

圖330捷運路線圖的創始人HenryBeck91

圖331HenryBeck的倫敦捷運線路圖91

圖332視覺突出的示例92

圖333完圖法則的示例92

圖334視覺通道的選擇與展示94

圖335視覺通道的精確度對比94

圖336視覺通道的可辨認性——某公司產品銷售示意圖95

圖337視覺通道的可分離性差95

圖338上下文導致視覺假象196

圖339上下文導致視覺假象296

圖340對亮度和顏色的相對判斷容易造成視覺假象的示例96

圖341數據可視化與數據故事化描述97

圖342數據的故事化描述及故事的展現98

圖343項目管理的主要內容101

圖344數據科學項目的基本流程102

圖41大數據產業全景圖107

圖42基礎設施108

圖43分析工具109

圖44企業套用109

圖45行業套用110

圖46跨平台基礎設施和分析工具110

圖47開源系統111

圖48數據源與Apps111

圖49數據資源111

圖410MapReduce執行過程113

圖411MapReduce對中間數據的處理116

圖412以MapReduce為核心和以YARN為核心的軟體棧對比118

圖413下一代MapReduce框架118

圖413下一代MapReduce框架118

圖414ApacheHadoop官網119

圖415ApacheHadoop生態系統119

圖416HadoopMapReduce數據處理流程121

圖417ApacheHive官網122

圖418ApachePig官網123

圖419ApacheMahout官網124

圖420ApacheHBase官網125

圖421HBase與Hadoop項目125

圖422HBase邏輯模型126

圖423ApacheZookeeper官網127

圖424ApacheFlume官網127

圖425ApacheSqoop官網128

圖426Spark技術架構130

圖427Spark執行流程130

圖428SparkScheduler134

圖429傳統關係資料庫的優點與缺點136

圖430關係資料庫與NoSQL資料庫之間的關係138

圖431NoSQL數據分布的兩個基本途徑139

圖432分片處理140

圖433主從複製141

圖434對等複製142

圖435數據不一致性142

圖436CAP理論143

圖437Memcached官網146

圖438一致性散列的分配方式147

圖439伺服器增加時的變化147

圖440計算模式的演變150

圖441數據管理的新變化152

圖51數據產品開發中的數據與數據柔術157

圖52數據產品開發與數據柔術160

圖53數據產品的多樣性160

圖54數據產品的層次性161

圖55Google全球商機洞察（Global Market Finder）162

圖56數據產品鏈162

圖57傳統產品開發與數據產品開發的區別163

圖58D J Patil164

圖59UI(User Interface)設計方案與設計思維165

圖510Goolge搜尋的用戶體驗166

圖511人與計算機圖像內容識別能力的不同166

圖512Amazon MTurk平台168

圖513HIT生命周期168

圖514基於人與計算機的數據處理成本曲線169

圖515亞馬遜數據產品：其他商家（Other Sellers）170

圖516LinkedIn的數據產品——你可能認識的人們（People You May Know）170

圖517LinkedIn的數據產品——你的觀眾是誰171

圖518逆向互動定律172

圖519LinkedIn數據產品——職位推薦174

圖520LinkedIn的數據產品——幫助你的朋友找到工作174

圖521Facebook的良好用戶體驗175

圖522DMM基本思路175

圖523CMM基本思想177

圖524CMM成熟度等級177

圖525DMM關鍵過程域178

圖526DMM層級劃分及描述180

圖527IDEAL模型182

圖528機構數據管理能力成熟度評估結果的可視化182

圖529數據戰略與目標的區別183

圖530數據戰略的目標183

圖531數據戰略的側重點184

圖532數據戰略的影響因素184

圖533數據管理與數據治理的區別185

圖534IBM提出的企業數據管理的範疇186

圖535數據治理的PDCA模型187

圖536DGI數據治理框架188

圖61歐巴馬2012年總統競選芝加哥總部191

圖62George Clooney192

圖63Sarah Jessica Parker192

圖64歐巴馬及快速捐贈計畫193

圖65歐巴馬通過Reddit與選民互動195

圖66女性體重與身高的線性回歸分析198

圖67KMeans算法的基本步驟208

圖68工資數據的可視化215

圖69起飛延誤時間227

圖610落地延誤時間227

圖附A1如何參考附錄A232

表目錄

表11結構化數據、非結構化數據與半結構化數據的區別與聯繫3

表12某數據科學家的畫像（Profile）27

表21參數估計與假設檢驗37

表22機器學習的相關學科45

表23已知6部電影的類型及片中出現的接吻和打鬥次數47

表24已知電影與未知電影的距離47

表25分析學習和歸納學習的比較52

表26Anscombe四組數據（Anscombes Quartet）56

表31測試數據A65

表32測試數據B65

表33測試數據C65

表34Pew論壇部分人員信仰與收入數據統計（整齊化處理之前）65

表35Pew論壇部分人員信仰與收入數據統計（整齊化處理之後）66

表36探索性統計中常用的集中趨勢統計量67

表37探索性統計中常用的離散程度統計量67

表38探索性統計中常用的數據分布統計量67

表39數據變換的類型74

表310十進制首位數字的出現機率80

表311數據分析中常見錯誤85

表312數據類型及所支持的操作類型93

表313數據類型與視覺通道的對應關係圖93

表314數據故事化中的“應該”與“不應該”99

表315數據科學項目中的主要角色及其任務101

表41RDD常用的Transformation132

表42RDD常用的Actions132

表43RDD的存儲級別133

表44R與Spark數據類型的映射關係135

表45典型雲資料庫產品138

表46NoSQL中常用的數據模型139

表47R與Python對比149

表48雲計算的層次性151

表51數據轉換與數據加工的區別158

表52谷歌十大產品與服務158

表53數據管理成熟度模型的過程域分類179

表61數據集Women195

表62Protein數據集206

表63Salaries數據集213

表64Spark版本差異性220

表65Spark與R的數據類型對比220

表66SparkR與sparklyr比較228

相關詞條

熱門詞條

聯絡我們