數據科學理論與實踐(第2版)

數據科學理論與實踐(第2版)

《數據科學理論與實踐(第2版)》是2019年9月清華大學出版社出版的圖書,作者是朝樂門。

基本介紹

  • 書名:數據科學理論與實踐(第2版)
  • 作者:朝樂門
  • ISBN:9787302531913
  • 定價:69.80元
  • 出版社:清華大學出版社
  • 出版時間:2019年9月
內容簡介,圖書目錄,

內容簡介

重點介紹數據科學中的新理論和代表性實踐,填補數據科學與大數據技術專業的核心教材的空白。主要內容包括:基礎理論(術語定義、研究目的、發展簡史、理論體系、基本原則、數據科學家)、理論基礎(數據科學的學科地位、統計學、機器學習、數據可視化)、流程與方法(基本歷程、數據加工、數據審計、數據分析、數據可視化、數據故事化、項目管理)、技術與工具(技術體系、MapReduce、Hadoop、Spark、NoSQL與NewSQL、R與Python)、數據產品及開發(主要特徵、關鍵活動、數據柔術、數據能力、數據戰略、數據治理)、典型案例及實踐等。

圖書目錄

第1章基礎理論
如何開始學習
1.1術語定義
1.2研究目的
1.3研究視角
1.4發展簡史
1.5理論體系
1.6基本原則
1.7相關理論
1.8人才類型
如何繼續學習
習題
參考文獻
第2章理論基礎
如何開始學習
2.1數據科學的學科地位
2.2統計學
2.3機器學習
2.4數據可視化
如何繼續學習
習題
參考文獻
第3章流程與方法
如何開始學習
3.1基本流程
3.2數據加工
3.3數據審計
3.4數據分析
3.5數據可視化
3.6數據故事化
3.7數據科學項目管理
3.8數據科學中的常見錯誤
如何繼續學習
習題
參考文獻
第4章技術與工具
如何開始學習
4.1數據科學的技術體系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL與NewSQL
4.6R與Python
4.7發展趨勢
如何繼續學習
習題
參考文獻
第5章數據產品及開發
如何開始學習
5.1定義
5.2主要特徵
5.3關鍵活動
5.4數據柔術
5.5數據能力
5.6數據戰略
5.7數據治理
5.8數據安全、隱私、道德與倫理
如何繼續學習
習題
參考文獻
第6章典型案例及實踐
如何開始學習
6.1統計分析
6.2機器學習
6.3數據可視化
6.4Spark編程
6.52012年美國總統大選
如何繼續學習
習題
參考文獻
附錄A本書例題的R語言版代碼
附錄B數據科學的重要資源
附錄C術語索引
後記
圖11DIKW金字塔模型3
圖12數據與數值的區別4
圖13數位訊號與模擬信號4
圖142008—2015年全球數據規模及類型的估計6
圖15大數據的特徵7
圖16大數據的本質8
圖17人工智慧、機器學習和深度學習的區別與聯繫10
圖18DIKUW模型及套用11
圖19數據洞見12
圖110業務數據化與數據業務化12
圖111常用驅動方式13
圖112數據的層次性13
圖113大數據生態系統示意圖14
圖114數據科學的新研究視角15
圖115Gartner技術成熟度曲線16
圖116數據科學的萌芽期(1974—2009年)17
圖117數據科學的快速發展期(2010—2013年)18
圖118數據科學的逐漸成熟期(2014年至今)19
圖119數據科學的理論體系20
圖120數據科學的主要內容20
圖121數據科學的“三世界原則”22
圖122數據科學的“三個要素”及“3C精神”23
圖123計算密集型套用與數據密集型套用的區別24
圖124數據範式與知識範式的區別25
圖125數據管理範式的變化25
圖126數據的“資產”屬性26
圖127常用驅動方式28
圖128CAPTCHA方法的套用28
圖129ReCAPTCHA項目29
圖130數據與算法之間的關係30
圖131BellKors Pragmatic Chaos團隊獲得Netflix獎30
圖132Netflix獎公測結果31
圖133數據科學與商務智慧型的區別與聯繫32
圖134數據科學與數據工程在企業套用中的區別與聯繫33
圖135數據科學人才類型及其收入33
圖136RStudio中編輯Markdown的視窗35
圖137數據科學家團隊38
圖138大數據人才應具備的不同知識結構40
圖139學習數據科學的四則原則43
圖21數據科學的理論基礎50
圖22統計方法的分類(行為目的與思路方式視角)52
圖23統計學中的數據推斷53
圖24數據統計方法的類型(方法論視角)53
圖25數據統計基本方法54
圖26元分析與基本分析54
圖27GFT預測與美國疾病控制中心數據的對比55
圖28GFT估計與實際數據的誤差(2013年2月)56
圖29大數據時代的思維模式的轉變58
圖210西洋雙陸棋58
圖211機器人駕駛58
圖212機器學習的基本思路59
圖213機器學習的三要素61
圖214機器學習的類型62
圖215KNN算法的基本步驟63
圖216決策樹示例——識別鳥類65
圖217感知器示例67
圖218前向神經網路67
圖219歸納學習與分析學習70
圖220增強學習70
圖221機器學習的類型71
圖222IBM Watson72
圖223Pepper機器人73
圖224機器學習中的數據73
圖225Anscombe四組數據的可視化77
圖226John Snow的鬼地圖(Ghost Map)78
圖227在Tableau中加利福尼亞州政府收入來源數據的可視化79
圖31數據科學的基本流程83
圖32量化自我84
圖33規整數據與乾淨數據的區別85
圖34規整數據示意圖86
圖35殘差89
圖36數據分析的類型90
圖37Analytics 1.0~3.091
圖38數據加工方法92
圖39數據審計與數據清洗93
圖310缺失數據處理的步驟94
圖311冗餘數據處理的方法94
圖312數據分箱處理的步驟與類型96
圖313均值平滑與邊界值平滑96
圖314內容集成98
圖315結構集成99
圖316數據脫敏處理100
圖317數據連續性的定義及重要性104
圖318可視化審計示例106
圖319Gartner分析學價值扶梯模型106
圖320冰激凌的銷售量與謀殺案的發生數量108
圖321數據分析的類型110
圖322拿破崙進軍俄國慘敗而歸的歷史事件的可視化111
圖323可視分析學的相關學科111
圖324可視分析學模型112
圖325數據可視化的方法體系113
圖326視覺圖形元素與視覺通道113
圖327雷達圖示例114
圖328齊美爾連帶114
圖329視覺隱喻的示例——美國政府機構的設定114
圖330捷運路線圖的創始人Henry Beck115
圖331Henry Beck的倫敦捷運線路圖116
圖332視覺突出的示例116
圖333完圖法則的示例117
圖334視覺通道的選擇與展示119
圖335視覺通道的精確度對比119
圖336視覺通道的可辨認性——某公司產品銷售示意圖120
圖337視覺通道的可分離性差120
圖338上下文導致視覺假象1121
圖339上下文導致視覺假象2121
圖340對亮度和顏色的相對判斷容易造成視覺假象的示例121
圖341數據可視化表達與數據故事化描述126
圖342數據的故事化描述及故事的展現127
圖343項目管理的主要內容130
圖344數據科學項目的基本流程131
圖412017大數據產業全景圖140
圖42大數據參考架構142
圖43MapReduce執行過程144
圖44MapReduce對中間數據的處理148
圖45以MapReduce為核心和以YARN為核心的軟體棧對比150
圖46下一代MapReduce框架151
圖47Apache的Hadoop項目151
圖48Hadoop生態系統152
圖49Hadoop MapReduce數據處理過程153
圖410Apache Hive官方網站155
圖411Apache Pig官方網站156
圖412Apache Mahout官方網站157
圖413Apache HBase官方網站157
圖414HBase與Hadoop項目158
圖415HBase的邏輯模型159
圖416Apache ZooKeeper官方網站160
圖417Apache Flume官方網站161
圖418Apache Sqoop官方網站162
圖419Spark 技術架構163
圖420Spark的基本流程164
圖421Spark的執行步驟169
圖422Lambda 架構的主要組成部分171
圖423傳統關係資料庫的優點與缺點172
圖424關係資料庫技術與NoSQL技術之間的關係174
圖425NoSQL數據分布的兩個基本途徑175
圖426分片處理176
圖427主從複製177
圖428對等複製178
圖429數據不一致性179
圖430CAP理論180
圖431Memcached官方網站183
圖432一致性散列的分配方式184
圖433伺服器增加時的變化184
圖434雲計算的演變過程188
圖435數據管理的新變化190
圖4362016—2018年數據科學相關項目中軟體產品的使用率(%)192
圖4372019年Gartner數據科學和機器學習平台魔力194
圖51數據產品開發中的數據與數據柔術201
圖52知識範式與數據範式203
圖53數據產品的多樣性204
圖54數據產品的層次性205
圖55Google全球商機洞察(Google Global Market Finder)206
圖56數據產品鏈207
圖57傳統產品開發與數據產品開發的區別208
圖58D.J.Patil209
圖59UI(User Interface)設計方案與設計思維210
圖510Google搜尋的用戶體驗211
圖511人與計算機圖像內容識別能力的不同211
圖512Amazon Mechanical Turk平台213
圖513一個HIT的生命周期213
圖514基於人與計算機的數據處理成本曲線214
圖515亞馬遜的數據產品——其他商家(Other Sellers)215
圖516LinkedIn的數據產品——你可能認識的人們(People you may know)216
圖517LinkedIn的數據產品——你的觀眾是誰216
圖518逆向互動定律217
圖519LinkedIn數據產品——崗位推薦219
圖520LinkedIn的數據產品——幫助你的朋友找到工作220
圖521Facebook的良好用戶體驗220
圖522DMM模型基本思路222
圖523CMM基本思想222
圖524CMM成熟度等級224
圖525DMM關鍵過程域225
圖526DMM層級劃分及描述227
圖527IDEAL模型229
圖528組織機構數據管理能力成熟度評估結果的可視化229
圖529數據戰略與數據管理目標的區別230
圖530數據戰略的目標231
圖531數據戰略的側重點231
圖532數據戰略的範疇231
圖533數據管理與數據治理的區別233
圖534IBM提出的企業數據管理的範疇233
圖535數據治理的PDCA模型234
圖536DGI數據治理框架235
圖537P2DR模型237
圖538從歐洲大陸的空戰中返回的轟炸機238
圖61KMeans算法的基本步驟267
圖62歐巴馬2012年總統競選芝加哥總部287
圖63George Clooney288
圖64Sarah Jessica Parker288
圖65歐巴馬及“快速捐贈計畫”290
圖66歐巴馬通過Reddit與選民互動291
圖672012年美國總統競選財務數據官方網站292
圖A1女性體重與身高的線性回歸分析314
圖A2工資數據的可視化327
圖A3起飛延誤時間339
圖A4到達延誤時間339
圖A5捐助人職業、黨派及捐助額度分析352
圖A6分箱處理後的捐款數據可視化353
圖A7捐款日期與金額的可視化354
圖A8捐款月份與金額變化分析355
圖A9投票結果的可視化357
表11結構化數據、非結構化數據與半結構化數據的區別與聯繫5
表12某數據科學家的畫像(Profile)37
表21參數估計與假設檢驗的主要區別53
表22統計學與機器學習的術語對照表57
表23機器學習的相關學科61
表24已知6部電影的類型及其中出現的接吻次數和打鬥次數64
表25已知電影與未知電影的距離64
表26分析學習和歸納學習的比較70
表27Anscombe的四組數據(Anscombes Quartet)76
表31測試數據A86
表32測試數據B86
表33測試數據C86
表34Pew論壇部分人員信仰與收入數據統計(規整化處理之前)87
表35Pew論壇部分人員信仰與收入數據統計(規整化處理之後)87
表36探索性統計中常用的集中趨勢統計量89
表37探索性統計中常用的離散程度統計量89
表38探索性統計中常用的數據分布統計量89
表39常見的數據變換策略97
表310十進制第一數字的使用機率103
表311數據分析中常見錯誤109
表312數據類型及所支持的操作類型118
表313數據類型與視覺通道的對應關係118
表314數據故事化描述應遵循的基本原則128
表315數據科學項目中的主要角色及其任務130
表41Transformation常用函式166
表42Action常用函式166
表43RDD的存儲級別167
表44Spark數據類型和R數據類型之間的映射關係170
表45較有代表性的雲資料庫產品174
表46NoSQL資料庫中常用的數據模型175
表47R與Python對比186
表48雲計算的基本類型189
表49排名前10位數據科學產品的使用率及變化情況/%194
表51數據轉換與數據加工的區別202
表52Google公司的十大產品與服務202
表53數據管理成熟度模型的過程域分類226
表54信息系統安全等級及保護基本要求237
表55腎結石治療數據分析——兩種治療方案的分別統計240
表56兩種治療方案的匯總統計240
表61數據集women248
表62Protein數據集266
表63工資信息274
表64各欄位的名稱及含義292
表A1Spark版本差異性331
表A2Spark與R的數據類型對比332
表A3SparkR與sparklyr比較340

相關詞條

熱門詞條

聯絡我們