數據科學知識體系

數據科學知識體系

數據科學主要以統計學、機器學習、數據可視化以及(某一)領域知識為理論基礎,其主要研究內容包括數據科學基礎理論、數據預處理、數據計算和數據管理。

基本介紹

  • 中文名:數據科學知識體系
  • 外文名:Data Science Body of Knowledge
數據科學主要以統計學、機器學習、數據可視化以及(某一)領域知識為理論基礎,其主要研究內容包括數據科學基礎理論、數據預處理、數據計算和數據管理,數據科學的知識體系如圖1所示。
數據科學知識體系
圖1數據科學的知識體系
  • 基礎理論(參見本書第1章):數據科學中的新理念、理論、方法、技術及工具以及數據科學的研究目的、理論基礎(參見本書第3~5章)、研究內容、基本流程、主要原則、典型套用、人才培養、項目管理等。在此需要特別提醒的是——“基礎理論”與“理論基礎”是兩個不同的概念。數據科學的“基礎理論”在數據科學的研究邊界之內,而其“理論基礎”在數據科學的研究邊界之外,是數據科學的理論依據和來源,如圖2所示。
數據科學知識體系
圖2 數據科學的基礎理論與理論基礎的關係
  • 數據預處理(參見本書第2章):為了提升數據質量、降低數據計算的複雜度、減少數據計算量以及提升數據處理的準確性,數據科學中需要對原始數據進行預處理——進行數據審計、數據清洗、數據變換、數據集成、數據脫敏、數據規約和數據標註等。
  • 數據計算(參見本書第6章):在數據科學中,計算模式發生了根本性的變化——從集中式計算、分散式計算、格線計算等傳統計算過渡至雲計算。有一定的代表性的是Google雲計算3大技術、Hadoop MapReduce和YARN技術的出現。數據計算模式的變化意味著數據科學中所關注的數據計算的主要目標、瓶頸和矛盾發生了根本性變化。
  • 數據管理(參見本書第7章):在完成“數據預處理”(或“數據計算”)之後,我們需要對數據進行管理,以便進行(再次進行)“數據處理”以及數據的再利用和長久保管。在數據科學中,數據管理方法與技術發生了根本性的改變——不僅包括傳統關係型資料庫,而且還出現了一些新興數據管理技術,例如NoSQL、NewSQL技術和關係雲等。
  • 技術與工具(參見本書第1-7章的例題):數據科學中採用的技術與工具具有一定的專業性,我們將在本書“1.4.3 常用工具”中給出了較為詳細的列表。目前,R語言是數據科學家最為普遍套用的工具之一。因此,本書所有計算例題均採用了R編程技術,幫助讀者積累數據科學的實戰經驗。

相關詞條

熱門詞條

聯絡我們