定義
信息化是將現實世界中的事物和現象以數據的形式存儲到CYBER空間中,是一個生產數據的過程。這些數據是自然和生命的一種表示形式,這些數據還記錄了人類的行為,包括工作、生活和社會發展。今天,數據被快速大量地生產並存儲在CYBER空間中,這種現象稱為數據爆炸(data explosion),數據爆炸在CYBER空間中形成數據自然界(data nature )。數據是CYBER空間中的唯一存在,需要研究和探索CYBER空間中數據的規律和現象。另外,探索CYBER空間中數據的規律和現象,就是探索宇宙的規律、探索生命的規律、尋找人類行為的規律、尋找社會發展的規律的一種重要手段,例如:可以通過研究數據來研究生命(生物信息學)、研究人類行為(行為信息學)。數據學(Dataology)和數據科學(Data Science)(以下稱數據學)是關於數據的科學或者研究數據的科學,定義為:研究探索Cyberspace中數據界(datanature)奧秘的理論、方法和技術,研究的對象是數據界中的數據。與自然科學和社會科學不同,數據學和數據科學的研究對象是Cyberspace的數據,是新的科學。數據學和數據科學主要有兩個內涵:一個是研究數據本身,研究數據的各種類型、狀態、屬性及變化形式和變化規律;另一個是為自然科學和社會科學研究提供一種新的方法,稱為科學研究的數據方法,其目的在於揭示自然界和人類行為現象和規律。
數據學已經有一些方法和技術,例如:數據獲取 、數據存儲與管理 、數據安全 、數據分析、可視化等;還需要有基礎理論和新技術,例如:數據存在性、數據測度、時間、數據代數、數據相似性與簇論、數據分類與數據百科全書、數據偽裝與識別、數據實驗、數據感知等等。數據學的理論和方法將改進現有的科學研究方法,形成新型的科學研究方法,並且針對各個研究領域開發出專門的理論、技術和方法,從而形成專門領域的數據學,例如:行為數據學、生命數據學、腦數據學、氣象數據學、金融數據學、地理數據學,等等。
發展歷史:
數據科學在20世紀60年代已被提出,只是當時並未獲得學術界的注意和認可,1974年彼得.諾爾出版了《計算機方法的簡明調查》中將數據科學定義為:“處理數據的科學,一旦數據與其代表事物的關係被建立起來,將為其他領域與科學提供借鑑”。1996年在日本召開的“數據科學、分類和相關方法”,已經將數據科學作為會議的主題詞。2001年美國統計學教授威廉.s.克利夫蘭發表了《數據科學:拓展統計學的技術領域的行動計畫》,因此有人認為是克利夫蘭首次將數據科學作為一個單獨的學科,並把數據科學定義為統計學領域擴展到以數據作為現金計算對象相結合的部分,奠定了數據科學的理論基礎。
研究內容
● 基礎理論研究。科學的基礎是觀察和邏輯推理,同樣要研究數據自然界中觀察方法,要研究數據推理的理論和方法,包括:數據的存在性、數據測度、時間、數據代數、數據相似性與簇論、數據分類與數據百科全書等。
● 實驗和邏輯推理方法研究。需要建立數據科學的實驗方法,需要建立許多科學假說和理論體系,並通過這些實驗方法和理論體系開展數據自然界的探索研究,從而認識數據的各種類型、狀態、屬性及變化形式和變化規律,揭示自然界和人類行為現象和規律。
● 領域數據學研究。將數據學的理論和方法套用於許多領域,從而形成專門領域的數據學,例如:腦數據學、行為數據學、生物數據學、氣象數據學、金融數據學、地理數據學等等。
● 數據資源的開發利用方法和技術研究。數據資源是重要的現代戰略資源,其重要程度將越來越凸顯,在本世紀有可能超過石油、煤炭、礦產,成為最重要的人類資源之一。這是因為人類的社會、政治和經濟都將依賴於數據資源,而石油、煤炭、礦產等資源的勘探、開採、運輸、加工、產品銷售等等無一不是依賴數據資源的,離開了數據資源,這些工作都將無法開展。
知識體系
數據科學主要以統計學、機器學習、數據可視化以及(某一)領域知識為理論基礎,其主要研究內容包括數據科學基礎理論、數據預處理、數據計算和數據管理,數據科學的知識體系如圖1所示。
圖1數據科學的知識體系
圖2 數據科學的基礎理論與理論基礎的關係
數據預處理(參見本書第2章):為了提升數據質量、降低數據計算的複雜度、減少數據計算量以及提升數據處理的準確性,數據科學中需要對原始數據進行預處理——進行數據審計、數據清洗、數據變換、數據集成、數據脫敏、數據規約和數據標註等。
數據計算(參見本書第6章):在數據科學中,計算模式發生了根本性的變化——從集中式計算、分散式計算、格線計算等傳統計算過渡至雲計算。有一定的代表性的是Google雲計算3大技術、Hadoop MapReduce和YARN技術的出現。數據計算模式的變化意味著數據科學中所關注的數據計算的主要目標、瓶頸和矛盾發生了根本性變化。
數據管理(參見本書第7章):在完成“數據預處理”(或“數據計算”)之後,我們需要對數據進行管理,以便進行(再次進行)“數據處理”以及數據的再利用和長久保管。在數據科學中,數據管理方法與技術發生了根本性的改變——不僅包括傳統關係型資料庫,而且還出現了一些新興數據管理技術,例如NoSQL、NewSQL技術和關係雲等。
技術與工具(參見本書第1-7章的例題):數據科學中採用的技術與工具具有一定的專業性,我們將在本書“1.4.3 常用工具”中給出了較為詳細的列表。目前,R語言是數據科學家最為普遍套用的工具之一。因此,本書所有計算例題均採用了R編程技術,幫助讀者積累數據科學的實戰經驗。
與其他學科的關係
數據是存在於CYBER空間中的東西;信息是自然界、人類社會及人類思維活動中存在和發生的現象;知識是人們在實踐中所獲得的認識和經驗。數據可以作為信息和知識的符號表示或載體,但數據本身並不是信息或知識。數據學的研究的對象是數據,而不是信息,也不是知識。通過研究數據來獲取對自然、生命和行為的認識,進而獲得信息和知識。數據學的研究對象、研究目的和研究方法等等都與已有的計算機科學、信息科學和知識科學有著本質的不同。自然科學研究自然現象和規律,認識的對象是整個自然界,即自然界物質的各種類型、狀態、屬性及運動形式。行為科學是研究自然和社會環境中人的行為以及低級動物行為的科學,已經確認的學科包括心理學、社會學、社會人類學和其它類似的學科。數據學支持了自然科學和行為科學的研究工作。隨著數據學的進展,越來越多的科學研究工作將會直接針對數據進行,這將使人類認識數據,從而認識自然和行為。
人類探索現實自然界,用計算機處理人類的發現、人類的社會、自然與人,在這個過程中,數據已經巨量產生,並正在經歷大爆炸,人類在不知不覺中創造了一個更複雜的數據自然界。自第二次數據爆炸以來,人們生活在現實自然界和數據自然界兩個世界裡,人、社會和宇宙的歷史將變為數據的歷史。人類可以通過探索數據自然界來探索自然界,人類還需要探索數據自然界特有的現象和規律,這是賦予數據學的任務。可以期望,目前的所有的科學研究領域都可能形成相應的數據學。
體系框架
數據學研究的工作過程是:從數據自然界中獲得一個數據集;對該數據集進行勘探發現整體特性;進行數據研究分析(例如使用數據挖掘技術)或者進行數據實驗;發現數據規律;將數據進行感知化等等。數據學的基本框架如下圖所示: