《粗糙集中帶約束的特徵選擇高效算法研究》是依託西南交通大學,由陳紅梅擔任項目負責人的面上項目。
基本介紹
- 中文名:粗糙集中帶約束的特徵選擇高效算法研究
- 項目類別:面上項目
- 項目負責人:陳紅梅
- 依託單位:西南交通大學
項目摘要,結題摘要,
項目摘要
信息科學的高速發展和套用,數據更加複雜,不僅多模態的數據共存於不同套用中,而且數據的不確定性也急劇增加。如何從複雜數據中進行特徵選擇以有效提高分類精度並降低計算複雜度,更好支持決策是一個亟待解決的問題。粗糙集能有效地從數據中提取特徵,刪除冗餘的屬性,但針對複雜數據的帶約束的特徵選擇算法研究在粗糙集中尚未有效展開。本項目針對複雜數據中決策分布不平衡、決策屬性值缺失、數據量大和數據非線性等情況研究基於粗糙集的帶約束特徵選擇高效算法,以提高分類的精度。具體內容包括:1. 粗糙集中非平衡數據特徵選擇算法研究;2. 粗糙集中決策屬性值不完備數據特徵選擇算法研究;3. 粗糙集中基於Boosting的大數據並行特徵選擇和近似特徵選擇算法研究;4. 粗糙集中基於多核學習的非線性數據特徵選擇算法研究。這些問題的解決,對於推動粗糙集理論的發展,提高其解決複雜數據問題的能力和知識發現的效率有著重要的現實意義。
結題摘要
在數據分布複雜、不確定性攀升的大數據時代,選擇有效的特徵構建泛化能力強的學習模型降低計算複雜度是當前大數據處理中一個亟需解決的重要問題。本項目以粗糙集理論為主要工具,研究不同約束條件下的特徵選擇方法。主要取得了以下成果:(1)針對非平衡數據,給出了採用核映射、量子算法、提升學習等從算法層面和數據層面分析處理的多種方法,提出了多分類和二分類問題的非平衡數據特徵選擇算法;(2)針對不完備信息系統分析了不確定性度量相關動態演化機理。針對決策屬性值不完備信息系統,在鄰域粗糙集中提出了基於鄰域熵的對稱不確定性度量的特徵選擇方法。(3)針對大數據的特徵選擇,提出了互信息和鄰域熵的快速近似計算方法,給出了不同情況下基於數據分治融合機理的並行特徵選擇算法。(4)針對數據的非線性分布,考慮不確定性決策和有效樣本等因素,構建了不同的核粗糙集模型,分析了多核融合原理,提出了相應的特徵選擇算法。本項目共發表/錄用論文60篇,其中國際期刊論文32篇,國際會議論文11篇,國核心心期刊論文17篇;論文已被SCI檢索30篇(2篇待檢索)、EI檢索34篇、ESI高被引論文1篇;出版專著2部;申請專利6項;開發了包含非平衡特徵選擇、半監督特徵選擇、多核特徵選擇等算法的軟體系統一套;國際會議大會特邀報告1次、國內會議特邀報告2次;承辦數據挖掘相關暑期學校兩次,承辦國內會議1次;培養了多名研究生,獲國際、國內學術會議優秀論文獎、ACM成都優秀博士論文獎各2次,IEEE和四川省計算機學會優秀學生論文獎各1次。這些成果有效地擴展了粗糙集理論的套用,為複雜不確定性數據的特徵選擇提供了理論分析方法與技術路線。