科研大數據生態系統

科研大數據生態系統

科研大數據生態系統(Scientific Research Big Data Ecosystem,SRBDE) 是一個以多類型科研大數據並存為核心,以賦予數據生命特徵為特色,動態、複雜的科研數據管理生態學化的系統,如圖1所示。其不僅包括科研大數據本身,還包括與其整個生命周期相關的環境與人員,其中人員是增長點,環境是發力點,數據是支撐點,三方協契維護科研大數據生態系統的可持續發展。

基本介紹

定義,科研大數據生態系統主體:人員,科研大數據生態系統客體:數據,科研大數據生態系統環境,

定義

科研大數據生態系統是一個以數據層、環境層、人員層三層協契為基本框架,以賦予科研大數據生命特徵為特色,以科研大數據生命周期各活動為核心,以實現科研大數據價值最大化為目標,數據間存在同源關係、重生關係、遺傳變異關係、離易關係,人員間存在鏈帶關係、子集關係、迭升關係,數據、人員與環境間同步與異步關係並存且不斷演化的相互關聯、和諧有序的動態系統。

科研大數據生態系統主體:人員

依據數據生命周期理論,科研大數據同樣經歷了“生產、傳播、消費、再生”等過程,對應不同的階段其人員可劃分為“生產者、消費者、傳遞者、分解者及監管者”,他們各司其職共同維護科研大數據生態系統的穩定。
1) 科研大數據生產者負責數據的生產及挖掘。隨著技術的發展,科研大數據的生產已從專家為核心逐漸轉向高校、科研機構、企業技術部門、公眾多主體共同構建。截至2020年12月我國已對南極進行了37次專家組考察。其任務有:數據定義、篩選、分類、聚類歸庫處理等,並注重數據權威性、引用率及引用範圍。
2) 科研大數據傳遞者負責數據的共享、管理維護、更新。常見的科研大數據傳遞者有數據出版商、數據平台、數據中介組織等。其任務有:①捕獲新數據添加至資料庫。②提供檢索頁面。③變更數據,更新資料庫。④反饋科研大數據消費者意見。
3) 科研大數據消費者主要負責數據的引用或科研成果的轉化。主要由科研人員、科研資料庫、數據處理機構、第三方企業等構成。特點是對原始數據的重用可派生科研大數據集,從而化身為新生產者。例如浙江大學藉助 國家極地科學數據中心平台開展“基因組科學”活動,使得每14個月基因組科學數據量翻一番。
4) 科研大數據分解者負責數據的釋讀、甄別、審核、歸類。其泛在化地存在於系統的各個角落。具體任務是: 對於部分冗餘數據或沉睡數據,採用甄別與匹配算法,多維度深度分析,進行數據還原並將其釋放,由此形成科研大數據的循環利用。
5) 科研大數據監管者主要負責數據質量的監管、政策的發布與完善。常見的科研大數據監管者有政府、數據 發布平台、專家等。其工作為:①監管數據質量。②監管其他主體行為。③發布科研大數據生態治理政策。④完善 科研大數據生態體系,規範相應制度,如英國開放數據政策路線圖、《關於發布“中國極地科學考察樣品和數據管理辦法(試行)”的通知》等,截至2021年1月國家科學數據極地中心共發布標準608條。

科研大數據生態系統客體:數據

科研大數據隸屬於大數據,產生於科學研究過程,其作用不僅限於輔助科研,更是自然與社會現象的間接反映,是科研大數據生態系統中的重要客體,其特點是結構化與非結構化並存,原始型與非原始型共生。結構化的科研大數據主要指資料庫,如極光資料庫、地磁資料庫、電離層資料庫。非結構化的科研大數據主要指圖形圖像、音頻視頻等,如MODIS衛星圖像、Radarsat2-SAR影像。原始型科研大數據主要指觀察抑或實驗數據,如冰站自動氣象觀測數據、極地大氣化學成分分析數據。非原始型科研大數據主要指數據彙編、數據模型、數據可視化、數據派生等,如山地區數字高程模型、地磁數據檢測折線圖等。
科研大數據具有“規模性、高速性、價值性、多樣性、高維性、錯綜性”等特性。以極地科研大數據為例:①規模性指科研數據日產量巨大,如截至2021年3月國家極地科學數據中心共發布元數據1101條,總數據15.1TB,且線上數據時刻變化。②高速性指對極地情況檢測的數據可以快速傳播至科研人員的手中,尤其在當今5G環境下數據傳輸速率可達10GB/s以上。③價值性指單獨的數據又呈現出低價值密度的特點,即特定屬性的數據僅發揮特定的作用。④多樣性指數據類型多樣,如地圖與GIS、衛星遙感數據、大地測量數據等,涵蓋文字、圖片、視頻、音頻等多種格式。⑤高維性指數據具有多種屬性,出現數據屬性數量大於樣本量的情況,大量“千維數據”湧現,但極易造成“維度災難”。⑥錯綜性指科研數據的複雜疊加,如中國南極科學考察海冰衛星遙感影像觀測數據是衛星遙感數據、極地海冰數據、極地冰川數據的疊加,同時又涵蓋了結構化、半結構化、非結構化等多種類型。

科研大數據生態系統環境

從科研大數據的內涵來看,其生態系統環境與數據生態類似,主要由資源環境、技術環境構成。科研大數據技術環境是全生命周期所需技術的集合,主要受科學技術發展水平、網路信息化發展水平的影響。現如今科研大數據技術環境逐漸由數據的發掘與管理向共享側重。以Stanford Digital Repository 和 Odum Institute Archive Data verse為代表的科學數據共享平台推動了科研大數據開放共享的發展。如圖2所示,數據被挖掘後採用數據轉換技術,將其轉換為TM、MD、PDF、HTML、Word、MW等模式。並在數據監視器下運用數據檢驗技術進行質檢,對於檢驗合格部分可直接穿透防火牆進行儲存。同時平台利用其包裝技術將其包裝成多類型磁碟數據,後由數據過濾外掛程式進行二次過濾、分類,如以極地視線、極光資料庫、電離層資料庫、地磁資料庫等4種數據管理系統呈現至檢索界面,用戶在檢索界面除可進行常規的數據檢索外還可反饋套用結果或其他改進意見供平台參考。由此形成以數據共享為側重點,以最佳化用戶體驗為目的,以提取技術、驗證技術、包裝技術、過濾技術、反饋技術等為核心的新型科研大數據生態技術環境。
科研大數據生態資源環境是指教育、經濟、理論、政策、制度、風險、體系等一系列資源的總稱,是科研大數據套用的支撐環境。截至2021年世界共30個國家在南極建立了150個基地,但亞洲僅5個國家建站14個,可見東西方經濟水平發展差異對極地科研產生限制。科研大數據生態的穩定發展離不開理論的指導,數據生命周期理論將科研大數據流通進行階段性的劃分,利益相關理論對科研大數據生態各主體的相關性進行分析,科研數據共享理論、共享倫理理論、博弈論則側重於對科研大數據共享行為的探討,耗散結構理論解決科研大數據生態內部有序問題、計畫行為理論則闡明了政策與制度對生態系統穩定的影響,科研大數據生態制度的完善有利於風險(數據侵權、數據泄露)的管控,同時可以規範主體人員的行為,如《中國極地科學數據管理規定》對數據的開發、入庫、共享、獎懲做出了詳細的規定。

相關詞條

熱門詞條

聯絡我們