S-粗集為動態數據挖掘-規律發現研究提供理論支持。在2002年,史開泉對Z.Pawlak粗集做出了改進,給出動態R-元素等價類的概念;提出S-粗集(singular rough sets),S-粗集是以具有動態特性的R-元素等價類x定義的。
基本介紹
- 中文名:s-粗集
- 外文名:singular rough sets
- 提出時間:2002年
- 改進人:史開泉
簡介,理論特點,分析方法,數學基礎,數據挖掘,挖掘能力,
簡介
波蘭數學家Z.Pawlak 在1982 提出的粗糙集(Rough Set) ,給出粗集的一般性研究,Z.Pawlak粗集是以R-元素等價類[x]定義的。Z.Pawlak粗集是一個具有靜態特徵的元素集合X∈U的粗集。
2002年史開泉對Z.Pawlak粗集做出改進,給出動態R-元素等價類的概念;提出了S-粗集(singular rough sets),S-粗集是以具有動態特性的R-元素等價類[x]定義的。S-粗集具有兩類基本形式:單向S-粗集(one directions singular rough sets)單向S-粗集對偶(dual of one directions singular rough sets),雙向S-粗集(two directions singular rough sets)S-粗集為動態數據挖掘-規律發現研究提供了理論支持。
理論特點
粗集(rough set) 理論的特點是不需要預先給定某些特徵或屬性的數量描述, 如統計學中的機率分布,模糊集理論中的隸屬度或隸屬函式等,而是直接從給定問題出發,通過不可分辨關係和不可分辨類,確定問題的近似域,從而找出該問題中的內在規律。粗集理論同模糊集、神經網路、證據理論等其它理論均成為不確定性計算的一個重要分支。
粗集理論是根據已有的給定問題的知識,將問題的論域進行劃分,然後對劃分後的每一個組成部分確定其對某一概念的支持, 即肯定支持此概念或不支持此概念。在粗集理論中,上述情況分別用3 個近似集合來表示正域、負域和邊界。
在數據挖掘中,從實際系統採集到的數據可能包含各種噪聲, 存在許多不確定的因素和不完全信息有待處理。傳統的不確定信息處理方法,如模糊集理論、證據理論和機率統計理論等,因需要數據的附加信息或先驗知識(難以得到),有時在處理大量數據的資料庫方面無能為力。粗集作為一種軟計算方法,可以克服傳統不確定處理方法的不足,並且和它們有機結合,可望進一步增強對不確定、不完全信息的處理能力。
粗集理論中,知識被定義為對事物的分類能力。這種能力由上近似集、下近似集、等價關係等概念體現。因為粗集處理的對象是類似二維關係表的信息表(決策表)。成熟的關係資料庫管理系統和新發展起來的數據倉庫管理系統,為粗集的數據挖掘奠定了堅實的基礎。
分析方法
粗集從決策表挖掘規則,輔助決策,其關鍵步驟是求值約簡或數據濃縮,包括屬性約簡Wong SK和Ziarko W已經證明求最小約簡是一個NP hard 問題。最小約簡的求解需要屬性約簡和值約簡兩個過程,決策表約簡涉及到核和差別矩陣兩個重要概念。一般來講,決策表的相對約簡有許多, 最小約簡(含有最小屬性)是人們期望的。另一方面,決策表的核是唯一的,它定義為所有約簡的交集,所以,核可以作為求解最小約簡的起點。差別矩陣突出屬性的分辨能力,從中可以求出決策表的核,以及約簡規則。藉助啟發式搜尋解決,苗奪謙等人從資訊理論的角度對屬性的重要性作了定義,並在此基礎上提出了一種新的知識約簡算法MIBARK,但其對最小約簡都是不完備的,此外,上述方法還只局限於完全決策表。Marzena K套用差別矩陣,推廣了等價關係(相似關係) 、集合近似等概念,研究了不完全決策表(屬性的取值含有空值的情況)的規則的發展問題, 從而為粗集的實用化邁出了可喜的一步。Marzena K還比較了幾種不完全系統的分析方法,得出如下結論:
①一個規則是確定的,如果此規則在原不完全系統的每個完全拓展中是確定的;
②刪除從不完全決策表包含空值的對象後, 採掘的知識可能成為偽規則.
數學基礎
粗集的數學基礎是集合論,難以直接處理連續的屬性. 而現實決策表中連續屬性是普遍存在的, 因此,連續屬性的離散化是制約粗集理論實用化的難點之一, 這個問題一直是人工智慧界關注的焦點. 連續屬性的離散化的根本出發點, 是在儘量減少決策表信息損失的前提下(保持決策表不同類對象的可分辨關係) , 得到簡化和濃縮的決策表, 以便用粗集理論分析, 獲得決策所需要的知識. 最優離散化問題(離散的切點數最少) 已被證明是NP - hard 問題, 利用一些啟發式算法可以得到滿意的結果. 總體上講, 現有離散化方法主要分為非監督離散和監督離散化. 前者包括等寬度(將連續值屬性的值域等份) 與等頻率離散化(每個離散化區間所含的對象相同) . 非監督離散化的方法簡單, 其忽略了對象的類別信息, 必須能用在屬性具有特殊分布的情況中. 針對上述的問題, 監督離散化方法考慮分類的一些信息, 要提高離散效果.有代表性的監督離散化方法有下面幾種:
① Holte 提出了一種貪婪的單規則離散器(one rule dis2cretizer) 方法;
② 統計檢驗方法;
③ 信息熵方法等.
這一些方法各有特點, 但普遍存在一個不足, 即每個屬性的離散化過程為相互獨立的, 忽略屬性之間的關聯, 從而使得離散結果中含有冗餘或不合理的分割點. 針對這一個問題, 有的人給出了一種連續屬性的整體離散化方法, 實驗表明其, 不僅能顯著減少離散化劃分點與歸納規則數, 而且提高分類精度. 連續屬性離散化還存在的問題為缺乏遞增的離散化方法, 即當新的對象加入決策表時候, 原有的分割點可能不是其最優或最滿意的.
數據挖掘
粗集理論與其它軟計算方法的結合, 能夠提高前數據挖掘能力. Mohua Banerjee 等利用集理論獲得了初始規則集, 然後, 構造對應的模糊多層神經網路(規則的置信度對應網路連線權) , 訓練後可得到精化知識. 粗集與其它軟計算方法的集成為數據挖掘的一種趨勢. 基於粗集的數據挖掘在以下方面有待於深化.
(1) 粗集和其它軟計算方法的進一步結合問題;
(2) 粗集知識採掘的遞增算法;
(3) 粗集基本運算的並行算法和硬體實現, 大幅度改善數據挖掘的效率. 已有的粗集軟體適用範圍還比較有限. 決策表里的實例數量和屬性數量受限制. 面對大量數據, 有必要設計高效的啟發式簡化算法或研究實時性較好並行算法;
(4) 擴大處理屬性的類型範圍, 實際資料庫離散化方法主要分為非監督離散化和監督離散化. 前者包括等寬度(將連續值屬性值域等份) 和等頻率離散化(每個離散化區間所含的對象相同) . 非監督離散化方法很簡單, 忽略了對象的類別信息, 只能用在屬性具有特殊分布的情況中. 針對上述的問題, 監督離散化方法考慮分類信息, 提高了離散效果. 比較有代表性的監督離散化方法有下面幾種: ① Holte 提出了一種貪婪的單規則離散器(one rule dis2cretizer) 方法; ② 統計檢驗方法; ③ 信息熵方法等. 這些方法各有特點, 但都存在一個不足, 即每個屬性的離散化過程是相互獨立的, 忽略了屬性之間的關聯, 從而使得離散結果中含有冗餘或不合理的分割點. 針對這個問題, 有人給出了一種連續屬性的整體離散化方法, 實驗表明, 不僅能顯著減少離散化劃分點和歸納規則數, 而且提高了分類精度. 連續屬性離散化還存在的問題是缺乏遞增的離散化方法, 即當新的對象加入決策表時, 原有的分割點可能不是最優或最滿意的.
挖掘能力
粗集理論和其它軟計算方法的結合, 能夠提高數據挖掘能力. Mohua Banerjee 等利用集理論獲得初始規則集, 然後, 構造對應的模糊多層神經網路(規則的置信度對應網路的連線權) [10 ] , 訓練後可得到精化的知識. 粗集與其它軟計算方法的集成是數據挖掘的一種趨勢. 基於粗集的數據挖掘在以下方面有待深化.
(1) 粗集和其它軟計算方法的進一步結合問題;
(2) 粗集知識採掘的遞增算法;
(3) 粗集基本運算的並行算法及硬體實現, 將大幅度改善數據挖掘的效率. 已有的粗集軟體適用範圍還很有限. 決策表中的實例數量和屬性數量受限制. 面對大量的數據, 有必要設計高效的啟發式簡化算法或研究實時性較好的並行算法;
(4) 擴大處理屬性的類型範圍, 實際資料庫的屬性類型是多樣的, 既有離散屬性, 也有連續屬性; 既有字元屬性, 也有數值屬性. 粗集理論只能處理離散屬性, 因此, 需要設計連續值的離散算法.