引言,歷史與發展,基本概念,知識,不可分辨關係,基本集,集合,實例,特點,套用,神經網路樣本化簡,控制算法獲取,決策支持系統,從資料庫中知識發現,其它,相關會議,相關軟體,
引言
在
自然科學、
社會科學和工程技術的很多領域中,都不同程度地涉及到對不確定因素和對不完備信息的處理。從實際系統中採集到的數據常常包含著
噪聲,不夠精確甚至不完整。採用純數學上的假設來消除或迴避這種不確定性,效果往往不理想。反之,如果正視它對這些信息進行合適地處理,常常有助於相關實際系統問題的解決。
多年來,研究人員一直在努力尋找科學地處理不完整性和不確定性的有效途徑。模糊集和基於
機率方法的證據理論是處理不確定信息的兩種方法,已套用於一些實際領域。但這些方法有時需要一些數據的附加信息或先驗知識,如模糊隸屬函式、基本機率指派函式和有關統計機率分布等,而這些信息有時並不容易得到。
1982年波蘭學者Z. Paw lak 提出了
粗糙集理論——它是一種刻畫不完整性和不確定性的
數學工具,能有效地分析不精確,不一致(inconsistent)、不完整(incomplete) 等各種不完備的信息,還可以對數據進行分析和推理,從中發現隱含的知識,揭示潛在的規律。
粗糙集理論是建立在分類機制的基礎上的,它將分類理解為在特定空間上的
等價關係,而等價關係構成了對該空間的劃分。粗糙集理論將知識理解為對數據的劃分,每一被劃分的集合稱為概念。粗糙集理論的主要思想是利用已知的知識庫,將不精確或不確定的知識用已知的知識庫中的知識來(近似) 刻畫。
該理論與其他處理不確定和不精確問題理論的最顯著的區別是:它無需提供問題所需處理的數據集合之外的任何先驗信息,所以對問題的不確定性的描述或處理可以說是比較客觀的,由於這個理論未能包含處理不精確或不確定原始數據的機制,所以這個理論與
機率論、
模糊數學和證據理論等其他處理不確定或不精確問題的理論有很強的
互補性.
粗糙集是一種較有前途的處理不確定性的方法,相信今後將會在更多的領域中得到套用. 但是,
粗糙集理論還處在繼續發展之中,正如粗糙集理論的創立人Z. Paw lak 所指出的那樣,尚有一些理論上的問題需要解決,諸如用於不精確推理的粗糙邏輯(Rough logic) 方法,
粗糙集理論與非標準分析(Nonstandard analysis) 和非
參數化統計(Nonparametric statistics)等之間的關係等等. 將粗糙集與其它
軟計算方法(如模糊集,
人工神經網路,
遺傳算法等) 相綜合,發揮出各自的優點,可望設計出具有較高的機器智商(M IQ) 的
混合智慧型系統(Hybrid Intelligent System),這是一個值得努力的方向.
歷史與發展
在本世紀70 年代,波蘭學者Z. Paw lak 和一些
波蘭科學院,波蘭
華沙大學的
邏輯學家們,一起從事關於信息系統邏輯特性的研究。
粗糙集理論就是在這些研究的基礎上產生的. 1982年,Z. Paw lak 發表了經典論文Rough Sets,宣告了粗糙集理論的誕生. 此後,粗糙集理論引起了許多數學家,邏輯學家和計算機研究人員的興趣,他們在粗糙集的理論和套用方面作了大量的研究工作.1991 年Z. Paw lak 的專著和1992 年套用專集的出版,對這一段時期理論和實踐工作的成果作了較好的總結,同時促進了粗糙集在各個領域的套用. 此後召開的與粗糙集有關的國際會議進一步推動了粗糙集的發展. 越來越多的科技人員開始了解並準備從事該領域的研究. 目前,粗糙集已成為人工智慧領域中一個較新的學術熱點,在機器學習,知識獲取,決策分析,過程控制等許多領域得到了廣泛的套用.
基本概念
知識
“知識”這個概念在不同的範疇內有多種不同的含義。在
粗糙集理論中,“知識”被認為是一種分類能力。人們的行為是基於分辨現實的或抽象的對象的能力,如在遠古時代,人們為了生存必須能分辨出什麼可以食用,什麼不可以食用;醫生給病人診斷,必須辨別出患者得的是哪一種病。這些根據事物的特徵差別將其分門別類的能力均可以看作是某種“知識”。
不可分辨關係
分類過程中,相差不大的個體被歸於同一類,它們的關係就是不可分辨關係(indiscernibility relation). 假定只用兩種黑白顏色把空間中的物體分割兩類,{黑色物體},{白色物體},那么同為黑色的兩個物體就是不可分辨的,因為描述它們特徵屬性的信息相同,都是黑色.
如果再引入方,圓的屬性,又可以將物體進一步分割為四類: {黑色方物體},{黑色圓物體},{白色方物體},{白色圓物體}. 這時,如果兩個同為黑色方物體,則它們還是不可分辨的. 不可分辨關係是一種等效關係(equivalence relationship),兩個白色圓物體間的不可分辨關係可以理解為它們在白,圓兩種屬性下存在等效關係.
基本集
基本集(elementary set) 定義為由論域中相互間不可分辨的對象組成的集合,是組成
論域知識的顆粒. 不可分辨關係這一概念在
粗糙集理論中十分重要,它深刻地揭示出知識的顆粒狀結構,是定義其它概念的基礎. 知識可認為是一族 等效關係,它將論域分割成一系列的等效類。
集合
粗糙集理論延拓了經典的
集合論,把用於分類的知識嵌入集合內,作為集合組成的一部分. 一個對象a 是否屬於集合X 需根據現有的知識來判斷,可分為三種情況:
⑴ 對象a 肯定屬於集合X ;
⑵ 對象a 肯定不屬於集X ;
⑶ 對象a 可能屬於也可能不屬於集合X 。
集合的劃分密切依賴於我們所掌握的關於
論域的知識,是相對的而不是絕對的.給定一個有限的非空集合U 稱為論域,I 為U 中的一族等效關係,即關於U 的知識,則二元對 K = (U,I) 稱為一個近似空間(approximation space). 設x 為U 中的一個對象,X為U 的一個子集,I (x) 表示所有與x 不可分辨的對象所組成的集合,換句話說,是由x 決定的等效類,即I (x) 中的每個對象都與x 有相同的特徵屬性(attribute)。
實例
下面用一個具體的實例說明粗糙集的概念. 在粗糙集中使用信息表(information table) 描述
論域中的數據集合. 根據學科領域的不同,它們可能代表醫療,金融,軍事,過程控制等方面的數據. 信息表的形式和大家所熟悉的關係資料庫中的
關係數據模型很相似,是一張二維表格,如下表所示:
姓名
| 教育程度
| 是否找到了好工作
|
王治
| 高中
| 否
|
馬麗
| 高中
| 是
|
李得
| 國小
| 否
|
劉保
| 大學
| 是
|
趙凱
| 博士
| 是
|
表格的數據描述了一些人的教育程度以及是否找到了較好工作,旨在說明兩者之間的關係. 其中王治,馬麗,趙凱等稱為對象(objects),一行描述一個對象. 表中的列描述對象的屬性. 粗糙集理論中有兩種屬性: 條件屬性(condition attribute) 和決策屬性(decision attribute). 本例中"教育程度"為條件屬性;"是否找到了好工作"為決策屬性。
設O 表示找到了好工作的人的集合,則O = {馬麗,劉保,趙凱},設I 表示屬性"教育 程度"所構成的一個等效關係,根據教育程度的不同,該論域被分割為四個等效類: {王治,馬麗},{李得},{劉保},{趙凱}. 王治和馬麗在 同一個等效類中,他們都為高中文化程度,是 不可分辨的. 則:
集合O 的下逼近(即正區) 為 I *(O) = PO S (O) = {劉保,趙凱}
集合O 的負區為 N EG (O) = {李得}
集合O 的邊界區為 BND (O) = {王治,馬麗}
集合O 的上逼近為 I 3 (O) = PO S (O) + BND (O) = {劉保,趙凱,王治,馬麗}
根據表1,可以歸納出下面幾條規則,揭示了教育程度與是否能找到好工作之間的關係.
RULE 1: IF (教育程度= 大學) OR (教育程度= 博士) THEN (可以找到好工作)
RULE 2: IF (教育程度= 國小) THEN (找不到好工作)
RULE 3: IF (教育程度= 高中) THEN (可能找到好工作)
從這個簡單的例子中,我們還可以體會到
粗糙集理論在數據分析,尋找規律方面的作用.
特點
粗糙集方法的簡單實用性是令人驚奇的,它能在創立後的不長時間內得到迅速套用是因為具有以下特點:
(1) 它能處理各種數據,包括不完整(incomplete) 的數據以及擁有眾多變數的數據;
(2) 它能處理數據的不精確性和模稜兩可(ambiguity),包括確定性和非確定性的情況;
(3) 它能求得知識的最小表達(reduct) 和知識的各種不同顆粒(granularity) 層次;
(4) 它能從數據中揭示出概念簡單,易於操作的模式(pattern) ;
(5) 它能產生精確而又易於檢查和證實的規則,特別適於
智慧型控制中規則的自動生成。
套用
粗糙集理論是一門實用性很強的學科,從誕生到現在雖然只有十幾年的時間,但已經在不少領域取得了豐碩的成果,如近似推理,
數字邏輯分析和化簡,建立
預測模型,決策支持,控制算法獲取,
機器學習算法和
模式識別等等。粗糙集能有效地處理下列問題:
1.不確定或不精確知識的表達;
2.經驗學習並從經驗中獲取知識;
3.不一致信息的分析;
4.根據不確定,不完整的知識進行推理;
神經網路樣本化簡
人工神經網路具有並行處理,高度容錯和泛化能力強的特點,適合套用在預測,複雜對象
建模和控制等場合. 但是當神經網路規模較大,樣本較多時,訓練時間過於漫長,這個固有缺點是制約神經網路進一步實用化的一個主要因素. 雖然各種提高訓練速度的算法不斷出現,問題遠未徹底解決。化簡訓練樣本集,消除冗餘數據是另一條提高訓練速度的途徑。
控制算法獲取
實際系統中有很多複雜對象難於建立嚴格的
數學模型,這樣傳統的基於數學模型的控制方法就難以奏效. 模糊控制模擬人的模糊推理和決策過程,將操作人員的控制經驗總結為一系列語言控制規則,具有
魯棒性和簡單性的特點,在工業控制等領域發展較快. 但是有些複雜對象的控制規則難以人工提取,這樣就在一定程度上限制了模糊控制的套用.
粗糙集能夠自動抽取控制規則的特點為解決這一難題提供了新的手段. 一種新的控制策略—模糊- 粗糙控制(fuzzy-rough control) 正悄然興起,成為一個有吸引力的發展方向. 有學者套用這種控制方法研究了"小車—倒立擺系統"這一經典控制問題和水泥窯爐的過程控制問題,均取得了較好的控制效果. 套用粗糙集進行控制的基本思路是: 把控制過程的一些有代表性的狀態以及操作人員在這些狀態下所採取的控制策略都記錄下來,然後利用
粗糙集理論處理這些數據,分析操作人員在何種條件下採取何種控制策略,總結出一系列控制規則:
規則1 IF Condit ion 1 滿足 THEN 採取decision 1
規則2 IF Condit ion 2 滿足 THEN 採取decision 2
規則3 IF Condit ion 3 滿足 THEN 採取decision 3
這種根據觀測數據獲得控制策略的方法通常被稱為從範例中學習(learning from examples). 粗糙控制(rough control) 與
模糊控制都是基於知識,基於規則的控制,但粗糙控制更加簡單迅速,實現容易(因為粗糙控制有時可省卻模糊化及去模糊化步驟);另一個優點在於控制算法可以完全來自數據本身,所以從軟體工程的角度看,其決策和推理過程與模糊(或神經網路) 控制相比可以很容易被檢驗和證實(validate). 有研究指出在特別要求控制器結構與算法簡單的場合,更適合採取粗糙控制。
決策支持系統
面對大量的信息以及各種不確定因素,要作出科學,合理的決策是非常困難的.決策支持系統是一組協助制定決策的工具,其重要特徵就是能夠執行IF THEN 規則進行判斷分析. 粗糙集理論可以在分析以往大量經驗數據的基礎上找到這些規則,基於粗糙集的決策支持系統在這方面彌補了常規決策方法的不足,允許決策對象中存在一些不太明確,不太完整的屬性,並經過推理得出基本上肯定的結論。
下面舉一個例子,說明
粗糙集理論可以根據以往的病例歸納出診斷規則,幫助醫生作出判斷。下表描述了八個病人的症狀. 從下表中可以歸納出以下幾條確定的規則:
病人編號
| 病理症狀診斷結果
| | |
| 是否頭痛
| 體溫
| 是否感冒
|
病人1
| 是
| 正常
| 否
|
病人2
| 是
| 高
| 是
|
病人3
| 是
| 很高
| 是
|
病人4
| 否
| 正常
| 否
|
病人5
| 否
| 高
| 否
|
病人6
| 否
| 很高
| 是
|
病人7
| 否
| 高
| 是
|
病人8
| 否
| 很高
| 否
|
1. IF (體溫正常) THEN (沒感冒)
⒉ IF (頭痛) AND (體溫高) THEN (感冒)
⒊ IF (頭痛) AND (體溫很高) THEN (感冒)
還有幾條可能的規則:
⒋ IF (頭不痛) THEN (可能沒感冒)
⒌ IF (體溫高) THEN (可能感冒了)
⒍ IF (體溫很高) THEN (可能感冒了)
病人5 和病人7,病人6 和病人8,症狀相同,但是一個感冒另一個卻沒感冒,這種情況稱為不一致(inconsistent). 粗糙集就是靠這種IF THEN 規則的形式表示數據中蘊含的知識.
希臘工業發展銀行ETEVA 用
粗糙集理論協助制訂信貸政策,從大量實例中抽取出的規則條理清晰,得到了金融專家的好評.
從資料庫中知識發現
現代社會中,隨著信息產業的迅速發展,大量來自金融,醫療,科研等不同領域的信息被存儲在資料庫中. 這些浩如煙海的數據間隱含著許多有價值的但鮮為人知的相關性,例如股票的價格和一些經濟指數有什麼關係; 手術前病人的病理指標可能與手術是否成功存在某種聯繫; 滿足何種條件的夜空會出現彗星等天文現象等等. 由於資料庫的龐大,人工處理這些數據幾乎是不可能的,於是出現了一個新的研究方向—資料庫中的
知識發現(Knowledge Discovery in Databases,KDD),也叫做資料庫(信息) 發掘(Mining),它是目前國際上
人工智慧領域中研究較為活躍的分支.
粗糙集是其中的一種重要的研究方法,它採用的信息表與關係資料庫中的關係數據模型很相似,這樣就便於將基於粗糙集的算法嵌入
資料庫管理系統中. 粗糙集引入核(core),化簡(reduct) 等有力的概念與方法,從數據中導出用IF THEN 規則形式描述的知識,這些精練的知識更便於存儲和使用。
其它
相關會議
相繼召開的以粗糙集理論為主題的國際會議,促進了粗糙集理論的推廣. 這些會議發表了大量的具有一定學術和套用價值的論文,方便了學術交流,推動了粗糙集在各個科學領域的拓展和套用. 下面列出了近年召開的一些會議:
1992 年第一屆國際研討會(Rough Set s: State of the A rt and Perspect ives) 在波蘭Kiekrz 召開;
1993 年第二屆國際研討會(The Second In ternat ionalWo rk shop on Rough Set s and Know ledge D iscovery,RSKD'93)在加拿大Banff 召開;
1994 年第三屆國際研討會(The Th ird In ternat ionalWo rk shop on Rough Set s and Soft Computing,RSSC'94)在美國San Jose 召開;
1995 年在美國North Carolina 召開了題為"Rough Set Theory,RST'95"的國際會議;
1996 年第四屆國際研討會(The Fourth International Work shop on Rough Sets,Fuzzy Sets,and Machine Discovery,RSFD'96)在日本東京召開;
1997 年3 月在美國North Carolina 召開了第五屆國際研討會(The Fifth International Work shop on Rough Sets and Soft Computing,RSSC'97)。
相關軟體
目前,國際上研究粗糙集的機構和個人開發了一些套用粗糙集的實用化軟體,也出現了商業化的軟體.
加拿大Reduct System Inc. 公司開發的用於資料庫
知識發現的軟體DataLogic R 是用C 語言開發的,可安裝在個人計算機上,為科研領域和工業界服務.
美國肯薩斯大學開發了一套基於粗糙集的經驗學習系統,名為LERS (L earning from Examples based on Rough Sets),它能從大量經驗數據中抽取出規則. LERS 已被美國國家航空航天管理局(NASA) 的
詹森(John son) 空間中心採用,作為
專家系統開發工具,為"自由號"(F reedom) 空間站上的醫療決策服務. 美國環境保護署(US Environmental Protection Agency) 資助的一個項目中也採用了LERS.
波蘭波茲南工業大學(Poznan University of Technology) 開發的軟體RoughDAS 和加拿大Regina 大學開發的KDD-R 是用C 編寫的,在UNⅨ 環境下運行,KDD-R 基於變精度粗糙集模型 (Variable Precision Rough Set,VPRS),通過改變粗糙程度而使數據中隱含的模式更清楚的顯示出來.