數據科學理論與實踐

數據科學理論與實踐

《數據科學理論與實踐》是2017年清華大學出版社出版的圖書,作者是朝樂門。

基本介紹

  • 書名:數據科學理論與實踐
  • 作者:朝樂門
  • 出版社:清華大學出版社
  • 出版時間:2017.11.01
圖書信息,內容簡介,目錄,

    圖書信息

    數據科學理論與實踐
    作者:朝樂門
    定價:59元
    印次:1-1
    ISBN:9787302480549
    出版日期:2017.11.01
    印刷日期:2017.09.29

      內容簡介

      本書重點講解數據科學的核心理論與代表性實踐,在編寫過程中充分借鑑了國外著名大學設立的相關課程以及全球暢銷的外文專著,而且也考慮到了國內相關課程定位與專業人才的培養需求。

      目錄

      目錄
      第1章基礎理論
      如何開始學習
      1.1術語定義
      1.2研究目的
      1.3發展簡史
      1.4理論體系
      1.5基本原則
      1.6數據科學家
      如何繼續學習
      習題
      參考文獻
      第2章理論基礎
      如何開始學習
      2.1數據科學的學科地位
      2.2統計學
      2.3機器學習
      2.4數據可視化
      如何繼續學習
      習題
      參考文獻
      第3章流程與方法
      如何開始學習
      3.1基本流程
      3.2數據加工
      3.3數據審計
      3.4數據分析
      3.5數據可視化
      3.6數據故事化
      3.7項目管理
      如何繼續學習
      習題
      參考文獻
      第4章技術與工具
      如何開始學習
      4.1技術體系
      4.2MapReduce
      4.3Hadoop
      4.4Spark
      4.5NoSQL與NewSQL
      4.6R與Python
      4.7發展趨勢
      如何繼續學習
      習題
      參考文獻
      第5章數據產品及開發
      如何開始學習
      5.1定義
      5.2主要特徵
      5.3關鍵活動
      5.4數據柔術
      5.5數據能力
      5.6數據戰略
      5.7數據治理
      如何繼續學習
      習題
      參考文獻
      第6章典型案例及實踐
      如何開始學習
      6.12012年美國總統大選
      6.2統計分析
      6.3機器學習
      6.4數據可視化
      6.5SparkR編程
      如何繼續學習
      習題
      參考文獻
      附錄AR語言學習筆記與參考手冊
      學習與參考指南
      1.R變數定義方法
      2.R語句的寫法
      3.R中的賦值語句
      4.R的檔案讀寫路徑——當前工作目錄
      5.R的變數查找機制——搜尋路徑
      6.R中查看幫助的方法
      7.R區分大小寫字母
      8.R的注釋
      9.R的語句
      10.R中的變數命名規範
      11.R中的關鍵字/保留字
      12.R中的默認數據類型
      13.R中數據類型的判斷與強制類型轉換
      14.R中的向量
      15.R中的列表
      16.R中的數據框
      17.R中的因子類型
      18.R中的循環語句
      19.R中的選擇語句
      20.R中的特殊運算符
      21.R中的快速生成數列的方法
      22.R中自定義函式
      23.R中常用的數學函式
      24.R中的字元串處理函式
      25.R中的常用統計函式
      26.R中的隨機數
      27.R包的用法
      28.R中的矩陣
      29.R中的數組
      30.R中的面向對象編程
      31.R中的S4類
      32.R中的數據可視化
      33.R的輸入輸出
      34.R中的正則表達式
      35.R的數據集
      36.R第三方包——R的靈魂
      37.基於R的數據加工
      附錄B數據科學的重要資源
      1.學術期刊
      2.國際會議
      3.研究機構
      4.課程資源
      5.碩士學位項目
      6.專家學者
      7.相關工具
      附錄C術語索引
      後記
      圖目錄
      圖11DIKW金字塔2
      圖12數據與數值的區別3
      圖13大數據的本質4
      圖14大數據的特徵5
      圖15DIKUW模型及套用8
      圖16數據洞見8
      圖17業務數據化與數據業務化9
      圖18常用驅動方式9
      圖19數據的層次性9
      圖110大數據生態系統10
      圖111Gartner技術成熟度曲線11
      圖112數據科學的萌芽期(1974—2009年)11
      圖113數據科學的快速發展期(2010—2013年)12
      圖114數據科學的逐漸成熟期(2014年至今)13
      圖115數據科學的理論體系14
      圖116數據科學的主要內容15
      圖117數據科學的“三世界原則”16
      圖118數據科學的“三個要素”及“3C精神”17
      圖119數據範式與知識範式的區別18
      圖120數據管理範式的變化18
      圖121大數據的資產屬性19
      圖122常用驅動方式20
      圖123CAPTCHA項目21
      圖124ReCAPTCHA項目21
      圖125數據與算法之間的關係22
      圖126BellKorsPragmaticChaos團隊獲得Netflix獎23
      圖127Netflix獎公測結果23
      圖128RStudio中編輯Markdown的視窗25
      圖129數據科學家團隊28
      圖130學習數據科學的四則原則29
      圖21數據科學的理論基礎35
      圖22統計方法的分類(目的與思路視角)37
      圖23統計學中的數據推斷37
      圖24數據統計方法的類型(方法論視角)38
      圖25數據統計基本方法38
      圖26元分析與基本分析39
      圖27GFT預測與美國疾病控制中心數據的對比40
      圖28GFT估計與實際數據的誤差(2013年2月)40
      圖29大數據時代的思維模式的轉變41
      圖210西洋雙陸棋42
      圖211自動駕駛42
      圖212機器學習的基本思路42
      圖213機器學習的三要素44
      圖214機器學習的類型45
      圖215KNN算法的基本步驟46
      圖216決策樹示例——識別鳥類48
      圖217感知器示例50
      圖218前向神經網路50
      圖219歸納學習與分析學習52
      圖220增強學習53
      圖221IBMWatson54
      圖222Pepper機器人54
      圖223機器學習及其套用55
      圖224Anscombe四組數據的可視化57
      圖225JohnSnow的鬼地圖(GhostMap)58
      圖31數據科學的基本流程62
      圖32量化自我63
      圖33整齊數據與乾淨數據的區別64
      圖34整齊數據示意圖64
      圖35殘差67
      圖36數據分析的類型68
      圖37Analytics1.0~3.069
      圖38數據加工方法70
      圖39數據審計與數據清洗71
      圖310缺失數據的處理步驟72
      圖311冗餘數據的處理方法72
      圖312數據分箱處理的步驟與類型73
      圖313均值平滑與邊界值平滑74
      圖314內容集成76
      圖315結構集成76
      圖316數據脫敏處理77
      圖317數據連續性的定義及重要性81
      圖318可視化審計82
      圖319Gartner分析學價值扶梯模型83
      圖320冰激凌的銷量與謀殺案的發生數量84
      圖321數據分析的類型86
      圖322拿破崙進軍俄國慘敗而歸的歷史事件的可視化87
      圖323可視化分析學的相關學科87
      圖324可視化分析學模型88
      圖325數據可視化的方法體系89
      圖326視覺圖形元素與視覺通道89
      圖327雷達圖示例89
      圖328齊美爾連帶89
      圖329視覺隱喻的示例——美國政府機構的設定90
      圖330捷運路線圖的創始人HenryBeck91
      圖331HenryBeck的倫敦捷運線路圖91
      圖332視覺突出的示例92
      圖333完圖法則的示例92
      圖334視覺通道的選擇與展示94
      圖335視覺通道的精確度對比94
      圖336視覺通道的可辨認性——某公司產品銷售示意圖95
      圖337視覺通道的可分離性差95
      圖338上下文導致視覺假象196
      圖339上下文導致視覺假象296
      圖340對亮度和顏色的相對判斷容易造成視覺假象的示例96
      圖341數據可視化與數據故事化描述97
      圖342數據的故事化描述及故事的展現98
      圖343項目管理的主要內容101
      圖344數據科學項目的基本流程102
      圖41大數據產業全景圖107
      圖42基礎設施108
      圖43分析工具109
      圖44企業套用109
      圖45行業套用110
      圖46跨平台基礎設施和分析工具110
      圖47開源系統111
      圖48數據源與Apps111
      圖49數據資源111
      圖410MapReduce執行過程113
      圖411MapReduce對中間數據的處理116
      圖412以MapReduce為核心和以YARN為核心的軟體棧對比118
      圖413下一代MapReduce框架118
      圖413下一代MapReduce框架118
      圖414ApacheHadoop官網119
      圖415ApacheHadoop生態系統119
      圖416HadoopMapReduce數據處理流程121
      圖417ApacheHive官網122
      圖418ApachePig官網123
      圖419ApacheMahout官網124
      圖420ApacheHBase官網125
      圖421HBase與Hadoop項目125
      圖422HBase邏輯模型126
      圖423ApacheZookeeper官網127
      圖424ApacheFlume官網127
      圖425ApacheSqoop官網128
      圖426Spark技術架構130
      圖427Spark執行流程130
      圖428SparkScheduler134
      圖429傳統關係資料庫的優點與缺點136
      圖430關係資料庫與NoSQL資料庫之間的關係138
      圖431NoSQL數據分布的兩個基本途徑139
      圖432分片處理140
      圖433主從複製141
      圖434對等複製142
      圖435數據不一致性142
      圖436CAP理論143
      圖437Memcached官網146
      圖438一致性散列的分配方式147
      圖439伺服器增加時的變化147
      圖440計算模式的演變150
      圖441數據管理的新變化152
      圖51數據產品開發中的數據與數據柔術157
      圖52數據產品開發與數據柔術160
      圖53數據產品的多樣性160
      圖54數據產品的層次性161
      圖55Google全球商機洞察(Global Market Finder)162
      圖56數據產品鏈162
      圖57傳統產品開發與數據產品開發的區別163
      圖58D J Patil164
      圖59UI(User Interface)設計方案與設計思維165
      圖510Goolge搜尋的用戶體驗166
      圖511人與計算機圖像內容識別能力的不同166
      圖512Amazon MTurk平台168
      圖513HIT生命周期168
      圖514基於人與計算機的數據處理成本曲線169
      圖515亞馬遜數據產品: 其他商家(Other Sellers)170
      圖516LinkedIn的數據產品——你可能認識的人們(People You May Know)170
      圖517LinkedIn的數據產品——你的觀眾是誰171
      圖518逆向互動定律172
      圖519LinkedIn數據產品——職位推薦174
      圖520LinkedIn的數據產品——幫助你的朋友找到工作174
      圖521Facebook的良好用戶體驗175
      圖522DMM基本思路175
      圖523CMM基本思想177
      圖524CMM成熟度等級177
      圖525DMM關鍵過程域178
      圖526DMM層級劃分及描述180
      圖527IDEAL模型182
      圖528機構數據管理能力成熟度評估結果的可視化182
      圖529數據戰略與目標的區別183
      圖530數據戰略的目標183
      圖531數據戰略的側重點184
      圖532數據戰略的影響因素184
      圖533數據管理與數據治理的區別185
      圖534IBM提出的企業數據管理的範疇186
      圖535數據治理的PDCA模型187
      圖536DGI數據治理框架188
      圖61歐巴馬2012年總統競選芝加哥總部191
      圖62George Clooney192
      圖63Sarah Jessica Parker192
      圖64歐巴馬及快速捐贈計畫193
      圖65歐巴馬通過Reddit與選民互動195
      圖66女性體重與身高的線性回歸分析198
      圖67KMeans算法的基本步驟208
      圖68工資數據的可視化215
      圖69起飛延誤時間227
      圖610落地延誤時間227
      圖附A1如何參考附錄A232
      表目錄
      表11結構化數據、非結構化數據與半結構化數據的區別與聯繫3
      表12某數據科學家的畫像(Profile)27
      表21參數估計與假設檢驗37
      表22機器學習的相關學科45
      表23已知6部電影的類型及片中出現的接吻和打鬥次數47
      表24已知電影與未知電影的距離47
      表25分析學習和歸納學習的比較52
      表26Anscombe四組數據(Anscombes Quartet)56
      表31測試數據A65
      表32測試數據B65
      表33測試數據C65
      表34Pew論壇部分人員信仰與收入數據統計(整齊化處理之前)65
      表35Pew論壇部分人員信仰與收入數據統計(整齊化處理之後)66
      表36探索性統計中常用的集中趨勢統計量67
      表37探索性統計中常用的離散程度統計量67
      表38探索性統計中常用的數據分布統計量67
      表39數據變換的類型74
      表310十進制首位數字的出現機率80
      表311數據分析中常見錯誤85
      表312數據類型及所支持的操作類型93
      表313數據類型與視覺通道的對應關係圖93
      表314數據故事化中的“應該”與“不應該”99
      表315數據科學項目中的主要角色及其任務101
      表41RDD常用的Transformation132
      表42RDD常用的Actions132
      表43RDD的存儲級別133
      表44R與Spark數據類型的映射關係135
      表45典型雲資料庫產品138
      表46NoSQL中常用的數據模型139
      表47R與Python對比149
      表48雲計算的層次性151
      表51數據轉換與數據加工的區別158
      表52谷歌十大產品與服務158
      表53數據管理成熟度模型的過程域分類179
      表61數據集Women195
      表62Protein數據集206
      表63Salaries數據集213
      表64Spark版本差異性220
      表65Spark與R的數據類型對比220
      表66SparkR與sparklyr比較228

      相關詞條

      熱門詞條

      聯絡我們