數據組織

數據組織

數據組織是按照一定的方式和規則對數據進行歸併、存儲、處理的過程,一般多用於GIS,即地理信息系統中。

基本介紹

  • 中文名:數據組織 
  • 外文名:data organization
  • 簡介:按照規則對數據進行歸併存儲處理
  • 兩種類別:基於分層、特徵的數據組織
  • 分級:數據項、記錄、檔案和資料庫
  • 套用學科:計算機科學、臨床醫學
基於分層的數據組織,基於特徵的數據組織,兩種方法對比分析,空間數據組織,

基於分層的數據組織

人們對現實世界的認知往往局限在一個很小的範圍內或某一個別的物體上,這些現實世界中的物體叫做實體(entity),它是客觀存在的具有一定特徵的對象,具有某些共同特徵的一類實體可以稱為實體組;另外,地表存在眾多的地理現象,可以用場(field)來描述,例如,地形高程、空氣溫度以及土壤濕度等;根據因變數的數據類型,可以把場分為兩種類型:連續場和離散場。實際上,任何地理現象都能通過場來表達。然而,許多情況下,一種方法能夠為有效計算提供一個更好的基礎,也可能是人們對地理現象心理表達的更好的模型。例如,一個國家的州或省在GIS中通常作為一組面對象或者一組組成其邊界的線對象來表達;當然也能作為一個離散的2維場來表達。實體和場可以分別回答不同的問題(where和what),當然,回答問題的過程必須以時間(when)為參照。這種認知方式造成了GIS中基於分層的數據組織方法,即把地理實體結構化為數學上的點、線、面以及柵格單元(格網)。
西安市及GIS中的數據分層西安市及GIS中的數據分層
分層分類理論是人們認知現實世界的基本理論之一。“層”是GIS中重要的基本概念,“分層”是目前GIS數據組織的最基本、最重要的方法之一,如圖所示。矢量模型中分層伴隨著分類(主要是指抽象的幾何要素分類,如點類、線類、面類和體類等),柵格模型主要是分層,分層後的每層數據均有相應的屬性和空間等信息,邏輯組織模型如圖。
GIS的數據由若干個空間數據圖層及其相關屬性數據組織而成,一個空間數據圖層又是以若干個空間坐標或柵格像元的形式存儲的。對於這一邏輯組織模型可概括為坐標對-空間對象-圖層-地圖。一個空間對象及其屬性信息在這一模型中屬於最基礎層次,而地圖則是這個模型的最高層次。地理數據邏輯組織模型中的信息可進行以下的分類:
(1)地圖集 這是地理數據組織中的頂層信息,它對整個地圖集進行管理,並對各個地圖進行處理,以識別不同的地圖,包含有以下信息:地圖引用(表名、地圖層數等)、地圖坐標(坐標系統、配準信息等)、地圖描述(訪問許可權、地圖說明等)等信息。
(2)圖層集 這是由多個空間圖層組成的能滿足一定套用需求的圖層集合,包含有組成圖層集的圖層引用(圖層標號、圖層表名)、圖層空間索引(大小、標號、表名)、圖層顯示、圖層坐標範圍(坐標最大、最小值)等信息。
(3)圖層 這是由多個具有某些相同或相似特性的同種類型的空間對象組成的集合,包含空間對象的標識(標號、名稱)、空間對象的描述(名稱、特徵屬性、類型)、空間對象的幾何表示(坐標的二進制大對象-BLOB形式)。
上述是GIS縱向分層的數據組織方法,這種基於分層的數據組織是面向地圖的,在資料庫中一般採用圖庫—圖幅—圖層—地理對象—幾何對象的數據組織策略。在橫向上,GIS數據組織通過分幅或劃分格網(tile)的辦法,然後對它們實現空間索引。這種數據組織方式,在計算機中是通過圖形分層的檔案管理與屬性數據的關係型資料庫(RDBMS)管理,相分離的方法實現的,這有2種方式:一種是RDBMS嵌入到GIS系統內部,如圖;另一種是除了內部的RDBMS外,還使用擴展的RDBMS來管理屬性數據。空間數據和屬性數據之間的連線由關鍵字ID來完成。

基於特徵的數據組織

基於分層數據組織的地理現象的描述存在下述缺陷:
(1)現實世界空間幾何目標的抽象忽視了地理現象的本質特性及其現象之間的內在聯繫,對現實世界的人為劃分,造成了GIS的信息簡化,降低了GIS信息容量
(2)注重空間位置描述的矢量或柵格數據組織模型,喪失了以分類屬性和相互關係為基礎的結構化實體所提供的豐富的分析能力;
(3)分層疊加(overlap)的方法把現實世界劃分為一系列具有嚴格邊界的圖層,但這些邊界不能充分地反映客觀現實,從而造成了許多人為誤差;另外,這種方法不能提供眾多基本對象的空間分析能力。
實際上,基於分層的數據組織中,點、線、面以及柵格單元是不存在的,現實中的道路不是數學上的線,城市也不是數學上的點。這種抽象不是一種對真實地理空間的描述或表達方式。我們周圍的感知世界是一組具有高度相關結構的物質實體,也就是說,這些實體擁有一組允許人們在相似性的基礎上進行分類的共同屬性。對地理實體屬性和關係共性的認識是人們認知的起始點(Usery1993)。可見,人們對客觀世界的初識是基於地理特徵的,這種認知方式造就了基於地理特徵的數據組織方法。目前,ISO/TC211和OGC分別對地理特徵進行了定義:
(1)ISO/TC211的定義,特徵存在有特徵類型和特徵實例2個層次,特徵類型是具有共同屬性的地理現象,特徵實例是特徵類型的一個具體的地理現象;每個特徵實例具有一個唯一的標識符,它與屬性、功能和關係封裝在一起,可以全面地描述該特徵類型的發生髮展的特點,通過標識符,特徵的一系列狀態或事件可以有機地聯繫、組織在一起,可在時空坐標系中進行時空定位,有利於時空數據的管理與查詢;
(2)OGC的定義,特徵是地理空間信息的基本單元;另外,美國USGIS對特徵也給出了自己的定義:特徵是客觀世界的實體或目標(數位化的/或圖形)表達。可見,特徵是一種針對真實地理現象的描述或表達方式,這種地理現象可以是一個真實的地理組成實體,如河流、湖泊,也可能是一種分類結果,如不同的用地類型,還可能是一種對某種現象的度量結果,如高溫區、高雨區等。因此,地理特徵是地球空間上客觀存在的,具有描述信息的地理實體,並且這個地理實體可以由對它的標識和對它的屬性和關係描述來定義。
基於特徵的GIS數據組織的基礎是特徵分類。它直接影響地理數據的組織、管理、查詢以及分析的有效性;影響地理數據模型語義的完備性以及數據的共享。因此,基於特徵的GIS可以使用面向對象的技術來構造。其數據組織框架需要使用認知分類理論的有關概念和製圖學的有關方法。這種數據組織方法要求正確合適的地理分類體系,該體系在遵循一般分類學原則的同時,還必須考慮GIS技術(如面向對象技術)的需要,要求將分類體系納入到一種由非空間屬性所決定的空間體系中。

兩種方法對比分析

基於分層的數據組織和基於特徵的數據組織處在同一抽象層次上,都以實體模型和和場模型為基礎,但基於特徵的數據組織在面向對象數據模型的基礎上使用面向對象的技術方法來組織數據,而基於分層的數據組織主要在矢量數據模型、柵格數據模型以及關係數據模型的基礎上使用分層的方法來組織數據;雖然隨著技術手段的不斷發展和完善,分層的數據組織方法也滲入了面向對象技術,但這並沒有構成真正的面向對象的數據模型。可見,二者存在根本的差別。
如圖所示,同一地理現象使用基於分層的數據組織方法至少要分3層(點、線、面),而使用基於地理特徵的數據組織方法僅僅需要1層,且它們之間的空間關係明顯。但是,不論是基於分層的還是基於特徵的數據組織,都離不開3個基本認知問題的回答,即where、what和when。
兩種數據組織模式的對比兩種數據組織模式的對比

空間數據組織

在數據管理上,目前GIS都將幾何意義上的空間數據與屬性數據分開存儲,分別用檔案和資料庫管理,未來的發展趨向是套用面向對象的數學模型以及真正意義上的用資料庫來管理海量數據的空間數據倉庫技術。
遵循以上原則,符合“數字地球”需求的大型GIS的數據組織方式如下:
(1)矢量數據:按圖幅、比例尺分別存放。
(2)柵格數據:具有一定的格網間距的規則格網數據(如DEM,影像數據等),其數據組織方式不同於矢量數據。由於地圖投影的影響,當數據以地理坐標(經緯度)存放時,每個標準分幅的地圖內所包含的格網數量相同,數據組成一標準矩形;而當數據以直角坐標(x,y)存放時,每個標準分幅的地圖內所包含的數量構成一梯形(近似),為解決數據接邊問題,一般以圖廓線的外接矩形為界,構成一標準矩形,圖廓線外數據用相鄰圖幅數據填充,如圖所示。
柵格數據形式柵格數據形式
由於原始數據大小不盡相等,在數據漫遊中,往往會遇到數據接邊問題。該問題的解決方法多種多樣,比較可行的方法是將數據重新進行拼接,裁切統一形狀、大小的數據塊,這樣在數據漫遊中,相鄰數據塊的拼接極為簡便,既避免了數據冗餘又提高了系統運行效率。數據裁切規則是:
①將全部數據置於“數字地球”的空間坐標框架下。
②無論任何比例尺與格網間距,每個數據檔案(一個數據塊)均有統一的大小。
③打破比例尺概念,以解析度(格網間距)作為數據尺度。
④建立檔案描述信息,將每個檔案的解析度、投影帶號、檔案位置等相關信息進行記錄,便於系統調用。
(3)矢量數據與柵格數據的一體化由於矢量與柵格的數據結構、數據組織方式、顯示方式不同,矢量數據與柵格數據的一體化需經如下過程:
①數據匹配與顯示:包括統一投影、比例尺匹配和坐標匹配。
②矢量數據與柵格數據的轉換:該轉換包括點、線、面的轉換,由矢量數據向柵格數據轉換相對簡單,在實際套用中,往往採用這種轉換。

相關詞條

熱門詞條

聯絡我們