基於模糊粗糙集的機率數據挖掘方法研究

基於模糊粗糙集的機率數據挖掘方法研究

《基於模糊粗糙集的機率數據挖掘方法研究》是依託中國人民大學,由趙素雲擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於模糊粗糙集的機率數據挖掘方法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:趙素雲
  • 依託單位:中國人民大學
項目摘要,結題摘要,

項目摘要

隨機性是機率數據的本質特徵,但並非唯一的不確定性特徵。機率數據不僅具有不同表現形式的隨機性,還具有特徵值的語義模糊性和信息不完備引起的粗糙不可分辨性等。經典的數據挖掘方法沒有考慮數據的不確定性。現有的機率數據挖掘方法僅考慮了數據某一表現形式的隨機性,忽略了其他類型和表現形式的不確定性,套用於機率數據挖掘時存在一系列的問題。. 本研究嘗試突破當前不確定數據管理領域以'可能世界模型'為基礎的機率數據表示模型,系統分析隨機性、語義模糊性和粗糙不可分辨性等不確定性,建立以機率資料庫為研究對象,以模糊粗糙集為研究工具,以特徵選取和規則分類為目標的數據挖掘模型。由此得到基於廣義隨機粗糙集的數據挖掘的理論模型和算法框架。. 本研究吸收了模糊粗糙集模型的粗糙近似運算元的構造成果,具有良好的研究基礎。本研究將拓寬粗糙集的實用性,也為其它挖掘算法拓展到機率資料庫提供理論參考。

結題摘要

弱可用信息之‘弱’的一大表現即是噪音數據的存在,三年來重點關注了帶噪音數據的知識發現方法。現有的帶噪音數據的知識發現方法多是通過設定閾值來控制噪音。因而閾值的選擇對知識發現的結果有影響顯著。如何設定一個最佳閾值是大多數魯棒知識發現方法不得不面對的難題。我們的研究從一個全新的角度來處理這一難題:我們拚棄了尋找一個最佳閾值的方法,著力發現全部可能閾值上的知識,把魯棒知識發現的結果全局呈現出來。這是我們近期研究在思路上的主要創新。基於這一思路,我們以粗糙集理論與模糊集理論為基點,以拓撲結構分析為方法,研究了基於嵌套結構的含噪音數據的降維與分類方法。研究成果是可以分為以下三個方面: 首先,我們從全局的角度研究了基於參數粗糙集的屬性約簡的拓撲結構。當前關於魯棒特徵選取的研究主要集中於如何設定一個全局次優或是局部最優的屬性約簡算法。很少有文章從拓撲結構的角度出發研究參數對屬性約簡結果的影響。本文首次討論了屬性約簡與參數之間的關係,發現了不同參數上的屬性約簡存在‘嵌套’的拓撲結構。並利用嚴謹的數學定理指出嵌套結構存在的必要條件。該論文成果被信息科學領域國際權威期刊Information Sciences錄用為長文。 然後,我們用嵌套約簡的方法提出一種魯棒的降維方法。該方法可以找到所有可能閾值上的降維結果。該方法完全不同於現有的魯棒降維算法,其具體表現在三個方面:概念,工具以及算法。首先,降維的結果採用模糊集呈現,而現有的降維算法結果均為清晰集合。其次,每個特徵的抗噪程度被設計為每個特徵的度量工具。最後,一個可以找到所有可能閾值上的降維結果的算法被提出。該成果被國際頂級期刊IEEE Transactions on Fuzzy Systems錄用為長文。 最後,我們用嵌套約簡的方法提出了一種嵌套分類器。該方法可以找到所有可能閾值上的分類結果。該方法提出了一系列魯棒的約簡與覆蓋概念,這些概念在不同閾值上是相互嵌套的。因為,他們為嵌套分類器的構造提供了理論依據。然後,我們基於嵌套結構,設計了一些魯棒約簡與規則覆蓋算法。這些算法為嵌套分類器的構造提供了可行性技術。該成果被國際期刊IEEE Transactions on Fuzzy Systems錄用為長文。

相關詞條

熱門詞條

聯絡我們