科研大數據變異

科研大數據變異

科研大數據變異是指在科學研究活動或在其中傳播的海量數據,受客觀發展規律、套用環境和各參與主體等因素的直接作用與間接影響,致使數據的內容形態及套用功能與原始狀態產生差異的現象。

基本介紹

  • 中文名:科研大數據變異
  • 外文名:Variation for Scientific Research Big Data,VSRBD)
特性,誘發因素,

特性

科研大數據變異具有不可規避性、雙向性、可修復性、遺傳性、可溯源性等特性。
(1) 不可規避性。不可規避性是科研大數據變異的首要特性。根據數據發展的客觀規律,數據變異是科研大數據生態發展進程中的固有特性,既無法規避,也無法一次性清除,且存在於數據發展的各個階段,即只要存在數據、存在數據傳播行為,就會產生數據變異的可能,人為、環境等外在因素只決定其演化趨勢及形式,但不能阻止科研大數據變異的產生。
(2) 雙向性。根據前文對相關概念的界定可知,科研大數據變異不僅存在數據的惡性變異,還存在數據內容及價值的最佳化,即數據 “進化”,而變異的科研大數據因發展趨勢的差異,也相應呈現出趨害型或趨利型兩種套用路徑。因此,科研大數據變異在發展趨勢和套用價值層面同時具備雙向性的特徵,是科研大數據變異的核心特性。
(3) 可修復性。可修復性是科研大數據變異的關鍵特性。對惡性變異數據的修復是體現科研大數據重要價值的關鍵,針對惡性變異數據,可通過 WGS 數據分析、AFL監測等方式進行溯源及排查,並定期進行備份和資料庫更新,從而使數據變異幅度保持在可控範圍內。修復成功的數據將以進化形態繼續數據的再傳播,而不可修復的數據則將在保證內容完整度不受損的前提下採取部分剔除等操作。
(4) 遺傳性。科研大數據變異並非是從產生至消除的線性演化過程,與生物的遺傳性類似,變異科研大數據在發展過程中也存在遺傳的可能,即變異數據再傳播。由於可再傳播數據既可能是進化後的數據也可能是惡性變異數據,因此應對數據在存儲和傳播狀態中的質量進行實時監測,避免惡性變異數據重用造成數據的群體性污染。遺傳性體現出了科研大數據 變 異 的 根 本 特性,即數據在傳播中擴散信息的性質。
(5) 可溯源性。在相關研究中探討過學術文獻溯源的可行性,而變異後的科研大數據也同樣存在溯源的可能,並將對後續數據修復及處理提供一定的反饋。變異數據雖在內容及套用上呈現出新的性狀,但其與原數據仍屬於同一數據基因鏈。如有關地質情況的科研數據集,由於暴雨、突發地質災害等原因導致土質、植被覆蓋率等與已有數據產生了一定程度的誤差,但在數據本源上依然描述的是當前地區的地表環境,而過大的數值偏差其誘因通常是顯著的,可為後續研究工作提供極大的參考。該特性體現出了科研大數據變異的反饋特徵。

誘發因素

科研大數據變異具有不可規避性特徵,對數據原始狀態、傳播過程、套用功能等都將產生一定影響,根據變異誘發的主體,可將其分為數據內生及外生誘因兩類。
內生誘因主要包括數據老化、數據來源變異、數據優勝劣汰等受數據內在發展規律影響或數據原始狀態下存在的變異,通常是非刻意且不受控的,並且誘發時間、環節具有不可預估性。對於內生型誘因的處理在主觀上往往以積極的方式進行,即避免數據內部原因造成的惡性變異。
外生誘因包括硬體/軟體受損、數據自利性加工、數據侵犯、數據犯罪處罰力度不足、個人理解偏差、數據使用場景轉移、數據套用需求等,主要受外部主體或環境影響而形成,外界干預下的數據誘發存在一定的雙向性特徵,一方面科研人員通過政策、管理、技術等方面的措施積極地促進數據的進化與重用,避免惡性變異數據傳播; 但另一方面具有利己性心理的群體往往主動地 “促成”數據的惡性變異 ( 如數據造假、數據篡改等) 以滿足個人私利。分析其誘發因素的主體可知,科研大數據變異的發生主要源於外部環境影響及人為干預。

相關詞條

熱門詞條

聯絡我們