數據處理
數據處理是指使用電子計算機對大量的
原始數據或資料進行錄入、編輯、匯總、計算、分析、預測、存儲管理等的操作過程。
基本內容
數據處理的基本內容包括:
(1)對所需數據進行收集整理,按一定的格式輸入,並保存在
存儲介質上;
(2)在輸入數據過程中,對原始數據進行檢查、邏輯判斷、查錯、修改和簡單的算術運算;
(3)對錄入數據進行分類、合併、邏輯校正、插入、更新、排序檢索等操作;
(4)對數據匯總、分析、制表列印、存檔等;
特點
數據處理在很多場合都有套用,如考務安排、成績統計、選票統計、投標、會計業務處理、人口普查、超市管理、銀行存款和取款等,其特點如下:
(1)數據量大;
(2)算法簡單,主要是加、減運算、排序、分類及匯總;
(3)數據要絕對正確;
(4)事先的工作要準備充分;
(5)牽涉面廣,經手的人多;
(6)有一定的時間性。
處理方式
數據處理方式是指計算機實現數據處理過程的方法。
(1)單級數據處理。
單級數據處理又可以分為批處理方式和在線上實時處理兩種。
批處理方式用於對數據處理的時間回響要求不是很高,數據處理點比較分散,無法實現聯網或投資不允許等情況,它定時將收集過來的數據輸入計算機,並進行相應的處理,這種處理方式投資少,穩定性好,但在數據匯總方面具有滯後性大等缺點。批處理方式適用於以下幾種情況:
①固定周期的數據處理;
②需要對大量的來自不同方面的數據進行綜合處理;
③需要將一段時間內積累的數據進行處理;
④無法進行在線上實時處理時。
某些數據處理系統要時刻關注其匯總結果,必須要採用實時處理系統。實時處理系統能隨時反映數據處理系統的瞬間狀態。實時處理系統是當數據一旦發生,就要立刻存入計算機,並做出相應的處理。如銀行的存款和取款、大型且重要的選票統計。實現實時處理系統的關鍵是輸入系統。實時處理系統必須要採用
Internet技術,要保證網路暢通,系統穩定性高,一旦系統癱瘓,將會嚴重影響工作。實時處理系統一般適用於以下幾種情況:
①需要迅速反應的數據處理;
②負荷易產生波動的數據處理;
③數據收集費用較高的數據處理。
(2)分級數據綜合處理。
分級數據綜合處理是根據一定的管理體制,自上而下進行數據匯總工作。由於某些數據處理系統牽涉的面廣、數據量大,又要考慮時間,因此某些大型的數據處理要採用分級綜合處理,如全國人口統計、全國職稱外語考試等。分級數據處理可分為集中統一超級匯總處理和逐步分級綜合處理。
集中統一超級匯總處理是指將所有各基層收集過來的原始數據都集中到最高一級數據處理中心進行數據錄入、編輯、修改、匯總。這種處理方式的優點是數據的計算機處理工作點集中,數據的正確性和錄入質量有可靠的保障;缺點是由於
原始數據是以紙質方式來記錄,給運輸、驗收等帶來困難,若原始資料有問題,情況返回也很不方便。當前,計算機已經非常普及,計算機技術人員也不缺乏,因此數據收集、錄入均可放在基層完成。經錄入的數據,經過編輯、校對可傳送到最高一級數據處理中心,最後進行統計匯總和分析工作。
如果大量的基礎數據統一傳輸到某一台計算機進行最後的數據匯總,可能在
數據存儲、運算時間及軟體平台上會很難實現。因此,必須要做到各級統計部門遵照國家統計局的統一部署,統一軟體,按計畫嚴格執行,將分層的統計結果自下而上按級上報,最後得到最終的統計結果。逐步分級綜合處理是由基層進行數據的收集、錄入、編輯校對,根據上級的要求進行統一匯總,然後將統計匯總結果上報上一級數據處理中心。上一級的數據處理中心將所屬的基層統計匯總數據進行第二次統計匯總,依次類推,最後由最高一級數據處理中心得出最終結果。
數據處理系統
在數據處理中,計算機硬體設備是一個必要條件,它是快速處理數據的保障。為了能夠滿足大型的數據處理,應該採用區域網路或多級
區域網路形式進行全國性的數據處理和統計。一般的數據處理可採用集中式數據存儲方式進行,它適合於原始資料比較集中、數據量適中的數據處理,其結構管理比較方便,容易控制。大部分數據的處理都可以採用這種網路結構。對於數據量很大、原始資料分散、工作點多的情況(如人口普查),就採用多級區域網路結構方式。
數據處理系統的軟體平台,主要是
作業系統和
資料庫。作業系統和資料庫的選擇主要根據具體的數據處理項目的大小、安全性要求等,還要考慮用戶對所選軟體的熟悉程度和現有硬體設備條件限制以及軟體的價格等方面的因素,用戶可以根據自己的需要選擇合適的作業系統和資料庫系統。
數據管理
數據管理是人們對數據的分類、組織、編碼、存儲、查詢和維護等活動,是數據處理中的關鍵環節。根據數據管理所提供的數據獨立性、數據冗餘度、數據共享性、數據間相互聯繫、數據安全性、數據完整性和數據存取方式等水平的高低,通常將數據管理技術劃分為人工管理、檔案管理、資料庫管理3個發展階段。
人工管理階段
(1)不能長期保存數據。在20世紀50年代中期之前,計算機一般在關於信息的研究機構里才能擁有,當時由於存儲設備(
紙帶、
磁帶)的容量空間有限,都是在做實驗的時候暫存實驗數據,做完實驗就把數據結果打在紙帶上或者磁帶上帶走,所以一般不需要將數據長期保存。
(2)數據並不是由專門的套用軟體來管理,而是由使用數據的應用程式自己來管理。作為程式設計師,在編寫軟體時既要設計程式邏輯結構,又要設計
物理結構以及數據的存取方式。
(3)數據不能共享。在人工管理階段,可以說數據是面向應用程式的,由於每一個應用程式都是獨立的,一組數據只能對應一個程式,即使要使用的數據已經在其他程式中存在,但是程式間的數據是不能共享的,因此程式與程式之間有大量的
數據冗餘。
(4)數據不具有獨立性。應用程式中只要發生改變,數據的
邏輯結構或物理結構就相應的發生變化,因而程式設計師要修改程式就必須都要做出相應的修改,給程式設計師的工作帶來了很多負擔。
檔案系統階段
20世紀50年代後期到60年代中期,計算機開始套用於數據管理方面。此時,計算機的存儲設備也不再是磁帶和卡片了,硬體方面已經有了磁碟、磁鼓等可以直接存取的存儲設備了。軟體方面,作業系統中已經有了專門的數據管理軟體,一般稱為檔案系統,檔案系統一般由三部分組成:與檔案管理有關的軟體、被管理的檔案以及實施檔案管理所需的數據結構。檔案系統階段存儲數據就是以檔案的形式來存儲,由作業系統統一管理。檔案系統階段也是資料庫發展的初級階段,使用檔案系統存儲、管理數據具有以下4個特點:
(1)數據可以長期保存。有了大容量的磁碟作為存儲設備,計算機開始被用來處理大量的數據並存儲數據。
(2)有簡單的數據管理功能。檔案的邏輯結構和物理結構脫鉤,程式和數據分離,是數據和程式有了一定的獨立性,減少了程式設計師的工作量。
(3)
數據共享能力差。由於每一個檔案都是獨立的,當需要用到相同的數據時,必須建立各自的檔案,數據還是無法共享,也會造成大量的
數據冗餘。
(4)數據不具有獨立性。在此階段數據仍然不具有獨立性,當數據的結構發生變化時,也必須修改應用程式,修改檔案的結構定義;而應用程式的改變也將改變數據的結構。
資料庫系統階段
20世紀60年代後期以來,
計算機管理的對象規模越來越大,套用範圍又越來越廣泛,數據量急劇增長,同時多種套用、多種語言互相覆蓋地共享數據集合的要求越來越強烈,資料庫技術便應運而生,出現了統一管理數據的專門軟體系統——
資料庫管理系統。
資料庫是按照數據結構來組織、存儲和管理數據的倉庫,它產生於距今六十多年以前,隨著信息技術和市場的發展,特別是20世紀90年代以後,數據管理不再僅僅是存儲和管理數據,而轉變成用戶所需要的各種數據管理的方式。資料庫有很多種類型,從簡單的存儲有各種數據的表格到能夠進行海量數據存儲的大型資料庫系統都在各個方面得到了廣泛的套用。
用
資料庫系統來管理數據比檔案系統具有明顯的優點,從檔案系統到資料庫系統,標誌著資料庫管理技術的飛躍。此階段的特點是:
(1)數據結構化。在描述數據時不僅要描述數據本身,還要描述數據之間的聯繫,數據結構是資料庫的主要特徵之一,也是資料庫系統與檔案系統的本質區別。
(2)數據共享性高、冗餘少且容易擴充。數據不再是針對某一個套用,而是面向整個系統,數據可被多個用戶和多個套用共享使用,而且容易增加新的套用,所以數據的共享性高且容易擴充。數據共享可以大大減少數據冗餘。
(3)數據獨立性高。
(4)數據由DBMS統一管理和控制。資料庫為多個套用和應用程式所共享,對數據的存取往往是並發的,即多個用戶可以同時存取資料庫中的數據,甚至可以同時存放資料庫中的同一個數據。
空間數據的處理與管理
空間數據有多種來源,不同的數據源其輸入方法不同,不論採用什麼方法輸入數據,都會有一些問題,如輸入過程中出現意外的錯誤,輸入數據與使用格式不一致,各種來源數據的比例尺、投影不統一,圖幅間不匹配等。因此,必須對
空間數據進行處理和管理,才能得到純淨、統一的數據檔案,使存儲的空間數據符合規範、標準的要求,滿足使用和分析的需要。
圖形數據的輸入
圖形數據的輸入過程實際上是圖形數位化處理的過程。對於不同來源的空間數據,很難找到一種統一而簡單的輸入方法,只能從下述幾種普遍方法中選用。
(1)手工鍵盤輸入;
(2)手扶跟蹤數位化儀輸入;
(3)自動掃描數位化輸入;
(4)解析測圖儀法空間數據輸入;
(5)
全球定位系統,它可以正確獲得空間位置及高程數據,並可以同計算機連線,直接輸入;
(6)已有數字形式空間數據的輸入,這種方式用來接收已是數位化形式的數據。
屬性數據的輸入
屬性數據即為空間實體的特徵數據。一般對一個空間實體及其屬性賦予一個或多個關鍵字進行連線。屬性數據一般採用鍵盤輸入。當數據量較大時,屬性數據與空間數據分別輸入並分別存儲。把屬性數據首先輸入一個順序檔案,經編輯、檢查無誤後轉存到資料庫的相應檔案或表格中,這時屬性數據輸入的一種常用方法。
GIS數據的編輯
數據編輯的目的在於消除數據輸入過程中引入的錯誤或誤差。它們包括空間點位不正確、變形,空間點位和線段的丟失或重複,線段過長或過短,面積不封閉,區域中心識別碼的遺漏,結點代碼和區域代碼不能符合拓撲的一致性,屬性的分類錯誤、錯誤編碼或誤輸入等等。
在
GIS數據編輯前,應進行多工序的數據檢核,檢驗方法有:
(1)目標檢核,將圖形實體顯示在螢幕上,檢查一些明顯的錯誤,如丟失了線段、圖斑不閉合、線段過長等。
(2)機器檢核,主要是對數位化數據的拓撲一致性進行邏輯檢核,把弧段連線成多邊形以進行數位化限差的檢查等。
(3)圖形重疊比較,即按與原圖相同的比例尺用數據輸出模組把輸入的圖形及其相應的屬性繪到透明材料上,然後與原圖精確套疊,在透光桌上仔細地觀察和比較,查找遺漏、位置錯誤等,一併做好相應的標記。
(4)屬性數據檢核,常用且簡單的方法是用印表機輸出屬性檔案,逐行檢查;另一種方法是編制檢核程式,用程式掃描數據檔案,看有無文字代替了數字或數字超過了允許範圍等粗差。