海洋數據

海洋數據

海洋數據資料浩如煙海.它涵蓋了海底地形數據、海洋遙感資料、船測數據、浮標資料、模式同化資料等諸多方面。這些海洋數據資料具有海量性、多類性、模糊性及時空過程性等特點.原始的海洋數據資料不能直接用於分析和挖掘,因此在對數據進行挖掘前要預先對數據進行清洗、轉換、選擇等預處理。其後的海洋數據挖掘,常用的算法有回歸算法、統計分析、聚類分析、關聯規則挖掘等。關聯數據挖掘是能夠有效地發現數據潛在的規律;聚類分析是一種不依賴於預先定義的類和帶類標號的訓練數據的非監督學習,實現了在未知類別標籤樣本集的非監督學習.回歸分析是一個統計預測模型.用以描述和評估應變數與一個或多個自變數之間的關係。本章主要介紹海洋數據特徵和海洋數據處理及挖掘技術的基本原理和方法。

基本介紹

  • 中文名:海洋數據
  • 外文名:oceanographic data
  • 類型:數據
海洋數據特徵,海量性,多類性,模糊性,時空過程性,動態更新頻繁,海洋數據預處理,數據清洗,數據轉換,數據選擇,海洋數據挖掘與分析,回歸預測,統計分析,聚類分析,

海洋數據特徵

海洋是一個動態的、連續的、邊界模糊的時空信息載體。隨著探測設備和信息技術的不斷發展,海洋數據獲取手段日益增多,海洋信息獲取的速度和精度也在不斷提高,獲取的海洋數據量越來越大,海洋數據已經呈現出海量特徵;海洋數據獲取手段的多樣化以及海洋觀測要素的多元化,使得海洋數據類型呈現出多類性特徵;同時。海洋時刻處於一個動態變化的過程中,它和大氣、陸地密切相關,海洋數據表現為強時空過程性。海洋數據的海量性、多類性、模糊性、時空過程性等特徵,使得海洋數據成為大數據的典範。

海量性

海洋數據主要通過陸地,海面,海底,水下,航空航天等多種監控和監測設備獲取,是大量不同歷史、不同尺度、不同區域的數據的積累。早期由於技術手段的匱乏、投入少等原因.海洋環境調查多以年、月為周期。數據量相對較少。近年來,隨著各種長期定點觀測設備的使用。大量專項調查的開展.特別是“空、天、地、底”海洋立體觀測技術的飛速發展.數據採集周期逐漸縮短.催生了高精度、高頻度、大覆蓋的海洋數據,數據量從GB、TB到PB量級,呈指數級增長,而其中遙感和浮標成為海洋數據“量”急劇增長的主要獲取手段。

多類性

海洋數據資料的來源非常廣泛:主要包括海洋調查、觀測、檢測、專項調查、衛星遙感、其他各專項調查資料,以及國際交換資料等。這些資料的質量和精度等相關技術類數據信息又各不相同,包括監測方法、數據提取方法與模型、技術指標、儀器名稱及參數、鑑定分析和測試方法、訂正與校正方法及所涉及的相關技術標準等。而通過各種專業手段獲取的各類海洋基礎性數據又分屬不同學科,主要包括海洋水文、海洋氣象、衛星遙感、海洋化學、海洋生物、海洋地質、海洋地球物理、海底地形、人文地理、海洋經濟、海洋資源、海洋管理等。另外,在國家海洋災害和環境監測體系中.國家海洋局所屬海洋環境監測機構90多個,包括國家中心、海區中心、中心站、海洋站等各級機構。沿海地方所屬海洋環境監測機構共有130多個,包括省級、單列市、地市級、縣級等各級機構。全國沿海各地分布著1 000多個監測站位,我國海洋系統不同的單位和部門業已形成了多種多樣的數據環境,如各類數據檔案、操作型資料庫(或稱套用資料庫)以及不甚規範的主題資料庫(或稱專題資料庫、專業資料庫)等,這些現實問題導致海洋數據的類型呈現多樣化特點。
海洋數據常見的分類主要包括:海洋遙感數據.海洋水溫數據,海洋氣象數據,海洋化學數據以及海洋生物數據等多種類型。每種海洋數據又包括多種屬性元素和數據格式,以海洋化學數據為例:其包含有溶解氧,溶解氧,pH值.總鹼度,活性磷,活性矽酸鹽,磷酸鹽,硝酸鹽,亞硝酸鹽,硫化物,有機污染,重金屬,營養元素等多種屬性元素。其屬性數據又分為多種格式,如:excel格式,mdb格式.CSV格式,xml格式等。可見海洋數據的屬性元素種類繁多,格式多樣.並且彼此之問相互依賴,相互影響,共同決定著數據質量的優劣。

模糊性

海洋數據的模糊性主要表現在概念和邊界界定上。首先,由於海洋現象具有動態性,有些定義無法像陸地那么明確,由此從概念上就產生了模糊性。其次,海洋環境中各種水體邊界往往是漸變的,與此相應的,要素分布也是一個漸變的過程,海洋中地理區域諸如海陸交接的海濱濕地、海岸帶、領海界線、大陸架等界線無法像陸地區界線樣精確和清晰.同樣環境分級界限都具有一定的模糊性。若人為劃分出區域邊界,似乎是給出了精確的邊界,實質是給出了不精確的描述。並且這一漸變過程既表現在空間維度上,也表現在時問維度上,往往無法用人為劃定的確切邊界處理。

時空過程性

海洋相對於陸地而言,更加強調過程。海洋數據的時空過程性主要體現在海洋現象方面。海洋現象的時空過程性不但存在於一定的空間範圍內.還在時間上具有一定的持續性,不同時態的特徵是不同的。在海洋現象中。不同時刻的特點是不同的。有些特徵會發生變化,以漩渦為例,上一時刻與下一時刻其漩渦中心、漩渦邊界、漩渦面積等都可能會發生變化。海洋環境數據的時空過程性在海洋研究中占據著非常重要的地位。

動態更新頻繁

近30年來.在國內外先進技術的推動下,海洋衛星、浮標、台站、航空遙感等各類觀測平台被廣泛套用于海洋數據獲取,新型的採集手段和技術的使用極大地提高了海洋數據獲取的時效性,數據採集周期逐漸縮短,由過去的多年或一年採集一次,逐漸發展為以每日、每小時,每分鐘甚至是秒來作為採集單位計量,使得海洋資料庫中的信息不斷變化,數據的更新也變得日益頻繁。海洋數據的監測頻率逐漸縮短,甚至可以達到全天候的監測。隨著遙感技術在海洋監測領域的套用.數據採集的周期逐步減小.甚至達到全天候的每分鐘一次。

海洋數據預處理

通過海洋數據預處理工作。可以使殘缺的數據完整,將錯誤的數據糾正,將多餘的數據去除,將所需的數據挑選出來並且進行數據集成.將不適應的數據格式轉換為所要求的格式,還可以消除多餘的數據屬性,從而達到數據類型相同化、數據格式一致化、數據信息精練化和數據存儲集中化,提高數據質量。提高數據服務精度和決策準確度。總而言之.經過預處理之後.不僅可以得到挖掘系統所要求的數據集,而且,還可以儘量地減少套用系統所付出的代價和提高知識的有效性與可理解性。

數據清洗

數據清洗,就是通過分析“髒數據”的產生原因和存在形式,利用現有的技術手段和方法去清洗“髒數據”,將“髒數據”轉化為滿足數據質量或套用要求的數據,從而提高數據集的數據質量。數據清洗主要利用回溯的思想,從“髒數據”產生的源頭上開始分析數據,對數據集流經的每一個過程進行考察,從中提取數據清洗的規則和策略。最後在數據集上套用這些規則和策略發現“髒數據”和清洗“髒數據”。這些清洗規則和策略的強度,決定了清洗後數據的質量。具體的數據清洗方法包括填補缺失數據、消除噪聲數據等。

數據轉換

數據轉換是用一種系統的數據檔案格式讀出所需數據,再按另一系統的檔案格式將數據寫入檔案。但從根本上講,系統之間的數據格式轉換是系統數據模型之間的轉換。兩系統能否進行數據轉換以及轉換的效果如何,從根本上取決於兩模型之間的關係。若模型之間差別較大,在轉換過程中則必然會導致信息的丟失.在這種情況下,系統之問不適於進行數據格式轉換。因此,對海洋數據的描述是實現空問數據轉換的前提。將所用的數據統一存儲在資料庫或檔案中形成一個完整的數據集,這一過程要消除冗餘數據。主要是對數據進行規格化(normalization)操作,如將數據值限定在特定的範圍之內。對於某些套用模式.需要數據滿足一定的格式,數據轉換能把原始數據轉換為套用模式要求的格式,以滿足需求。

數據選擇

把那些不能夠刻畫系統關鍵特徵的屬性剔除掉,從而得到精練的並能充分描述被套用對象的屬性集合。對於需要處理離散型數據的挖掘系統,應該先將連續型的數據量化,使之能夠被處理。

海洋數據挖掘與分析

海洋數據具有海量、多類、模糊等特性,Et前,面向海洋數據的存儲、分析和處理能力滯後於觀測技術的發展。“大數據,小知識”的矛盾嚴重影響著海洋數據套用的時效性和準確性,限制了海洋數據最大套用價值的挖掘,因此,迫切需要結合數據挖掘與分析技術,實現對海洋溫度、鹽度、水文等海洋數據的挖掘服務,從而發現潛在信息。

回歸預測

預測型挖掘就是由歷史數據和當前數據來推測出未來數據的一種挖掘方式。統計學中的回歸方法可以通過歷史數據直接產生對未來數據的預測的連續值。
回歸分析(regression analysis),是一個統計預測模型,用以描述和評估應變數與·一個或多個自變數之間的關係。回歸分析預測法.是在分析自變數和因變數之間相互關係的基礎上。建立變數之間的回歸方程,並將回歸方程作為預測模型,根據自變數在預測期的數量變化來預測因變數,它是一種具體的、行之有效的、實用價值很高的常用預測方法。回歸分析預測法有多種類型。依據相關關係中自變數的個數不同分類,可分為一元回歸分析預測法和多元回歸分析預測法。
觀測的海洋數據會受到多種不確定因素的影響.在某一地點和某段時間的確定性關係幾乎不可能得到,但可以對大量數據進行統計分析,建立不同變數之間的回歸方程.這樣近似地描述變數之間的關係。
常用的回歸預測方法包括:直線擬合、曲線擬合、多項式回歸等,可以根據情況選取一種或者多種分析方法,對比分析結果.選擇擬合效果好的分析方法。

統計分析

海洋要素的具體屬性隨著時問變化而變化.一段時間內的海洋要素變化的集合稱為總體,而通過儀器所得到的實測數據只是總體的一個樣本而已。為了研究實測數據所包含的規律,需要統計樣本的數字特徵。

聚類分析

聚類分析(Clustering Analysis)又稱為群分析、點群分析、簇分析、簇群分析,目的是將相似的事物歸類。將同類型的數據分為同一集群,集群與集群之間有顯著的差異性,聚類分析主要是為了解資料間的依存關係。常用的聚類指標為“距離”和“相似係數(similarity coefficient)”,在研究中一般是將距離較小、相似係數較大的數據分為同一群。
常用的聚類分析方法分為三類,一為層次式聚類法(hierarchical clustering),又稱系統聚類法,是一種聚類過程可以用層次式結構或是樹狀結構來描述的方法;二為非層次式聚類法(non-hierarchical clustering),又稱逐步聚類法、K—means聚類法或快速聚類法;三為兩階段法,此方法結合層次式聚類法與非層次式聚類法兩種方式,第一階段以華德法(Ward)或其他分類法做聚類,決定集群組個數K後第二階段再以K—means法進行類.在固定聚類數為K的條件下來做組內個體的移動。
先前提到聚類分析常用的聚類指標為“距離”和“相似係數”,層次式聚類法需先確定個體間的距離與群體間的距離,距離可以為一維度空間或是多維度空間的距離,以下提供幾種計算相似係數及距離的方式。

相關詞條

熱門詞條

聯絡我們