離散處理

離散處理是一個訓練集預處理的方法,用於將連續的數值屬性轉化為離散的數值屬性。離散數值屬性在數據挖掘的過程中具有重要的作用。

基本介紹

  • 中文名:離散處理
  • 本質:一種預處理方法
  • 套用領域:數據挖掘
簡介,步驟,分類及特點,評價,

簡介

數字計算機上對連續系統進行仿真時,首先遇到的問題是如何解決數字計算機在數值及時間上的離散性與被仿真系統數值及時間上的連續性這一基本問題。從根本意義上講,數字計算機所進行的數值計算僅僅是“數字”計算,它表示數值的精度受限於字長,這將引入捨入誤差;另一方面,這種計算是按指令一步一步進行的,因而,還必須將時間離散化,這樣就只能得到離散時間點上系統性能。用數字仿真的方法對微分方程的數值積分是通過某種數值計算方法來實現的。任何一種計算方法都只能是原積分的一種近似。因此,連續系統仿真,從本質上是對原連續系統從時間、數值兩個方面對原系統進行離散化,並選擇合適的數值計算方法來近似積分運算,由此得到的離散模型來近似原連續模型。如何保證離散模型的計算結果從原理上確能代表原系統的行為,這是連續系統數字仿真首先必須解決的問題。

步驟

對連續特徵進行離散化處理,一般經過以下步驟:
(1)對此特徵進行排序。特別是對於大數據集,排序算法的選擇要有助於節省時間,提高效率,減少離散化的整個過程的時間開支及複雜度。
(2)選擇某個點作為候選點,用所選取的具體的離散化方法的尺度來衡量候選選點是否滿足要求。
(3)若候選點滿足離散化的衡量尺度,則對數據集進行分裂或合併,再選擇下一個候選點,重複步驟(2)(3)。
(4)當離散算法存在停止準則時,如果滿足停止準則,則不再進行離散化過程,從而得到最終的離散結果。

分類及特點

離散處理方法的分類及特點:
離散化方法依據不同的需求沿著不同的主線發展至今,目前已存在很多不同離散化方法的分類體系。不同的分類體系強調離散化方法間的區別的不同方面。主要的分類體系有有監督的和無監督的、動態的和靜態的、全局的和局部的、分裂式的(從上至下)和合併式的(從下至上)、單變數的和多變數的以及直接的和增量式的。
根據離散化方法是否在離散化過程當中使用數據集的類別標註信息,離散化方法可以分為有監督的離散化方法和無監督的離散化方法。其中無監督的離散化方法在離散化過程當中無需使用類別信息,這類方法的典型代表是分箱方法,包括等寬度分箱和等頻率分箱。分箱方法使用箱均值或箱中位數替換箱中的每一個值來將數據離散化。實際套用中,分箱方法效果不佳,特別是當數值數據分布不均勻的時候。有監督的離散化方法在離散化過程當中需要使用類別信息。以前的研究表明,有監督的方法比無監督的方法效果要好。
離散化方法也常以動態或靜態的分類方法來區分。動態的離散化方法就是在建立分類模型的同時對連續特徵進行離散化。靜態的離散化方法就是在進行分類之前完成離散化處理。
根據離散化過程是否是針對整個訓練數據空間的,離散化方法又可分為全局的和局部的。全局的離散化方法使用所有的實例,而局部的離散化方法只是用一部分的實例。
離散化方法還可分為從上至下的和從下至上的,也可稱為分裂式的和合併式的。分裂的離散化方法起始的分裂點列表是空的,通過離散化過程逐漸往列表中加入分裂點,而合併的離散化方法則是將所有的連續值都看作可能的分裂點,再逐漸合併相鄰區域的值形成區間。
單變數的離散化方法是指一次只對數據集的一個特徵進行離散化,而多變數的離散化是同時考慮數據集的多個特徵及其相互關聯關係進行離散化,需要考慮更多的因素,算法更加複雜。
另外一種離散化方法的分類是直接式的和增量式的。直接式的離散化方法就是根據額外給定的參數(離散化所需得到的區間數等)一次性形成所有的分裂點,而增量式的離散化方法是根據某個準則逐漸的將離散化結果進行改進,直到滿足準則的停止條件為止。

評價

離散處理結果的評價:
不同的離散化方法會產生不同的離散化結果。優良的離散化,應使劃分儘可能簡約,又儘可能多的保留由樣本數據代表的對象的固有特性。
離散化結果的好壞可以從以下幾方面來考慮:
(1)區間的個數。這也是對模型簡潔性的要求。理論上來說,離散得到的區間數越少越好,便於理解,但區間數目的減少另一方面也會導致數據的可理解性變差。
(2) 離散化所導致的不一致性。離散化之後數據的不一致性不能比離散化之前更高。這一點是對模型一致性的要求。
(3)預測準確性。即對模型準確性的要求。這一點通常通過交叉檢驗模式建立分類樹來衡量。

相關詞條

熱門詞條

聯絡我們