《面向大數據的半監督粗糙特徵選擇高效算法研究》是依託山西大學,由王鋒擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:面向大數據的半監督粗糙特徵選擇高效算法研究
- 項目類別:青年科學基金項目
- 項目負責人:王鋒
- 依託單位:山西大學
項目摘要,結題摘要,
項目摘要
隨著大數據時代的到來,許多實際套用領域中存在著只含有少量有標記數據的海量高維數據集,尤其在生物、醫學以及化學等領域中更為常見。特徵選擇是數據挖掘中一個極其重要的數據預處理技術,而上述的“少標記數據問題”也為傳統特徵選擇方法帶來了全新的挑戰。本項目擬針對大數據背景下的少標記數據集的特徵選擇展開系統研究,構造一系列高效可行的半監督粗糙特徵選擇方法。具體內容:1)定義半監督意義下的不確定性和特徵重要度;2)設計面向大規模數據集的半監督粗糙特徵選擇高效方法;3)構造面向高維數據集的半監督粗糙特徵選擇高效方法;4)發展面向動態數據集的半監督粗糙特徵選擇高效方法。本項目的研究成果有望為大數據背景下的知識發現提供可以借鑑的新思路,並能在醫療診斷、生物工程、社會計算等領域得到套用。
結題摘要
大數據時代的到來,許多實際套用領域中存在著只含有少量有標記數據的海量高維數據集,這為傳統數據挖掘技術帶來了全新的挑戰。本項目針對大數據背景下的少標記數據集的高效特徵選擇展開系統的研究,並取得了以下幾方面的重要研究成果:(1) 分析並討論了幾種常見信息熵之間的聯繫和差異,為基於信息熵的數據處理技術提供了基礎;(2) 深入探索了動態數據集中信息熵的變化,並據此設計了面向動態數據集的一系列高效動態特徵選擇搜尋策略;(3) 進一步討論了混合型數據集中信息熵的表示,分別設計了面向混合型數據的聚類算法和高效特徵選擇算法;(4) 結合粗糙集理論和信息熵的概念,藉助半監督學習機制,構造了基於信息熵的半監督高效特徵選擇算法。這些主要研究成果為數據降維、粒度計算,數據挖掘等領域的研究提供了可以借鑑的新思路和途徑,對面向少量標記數據、動態數據以及混合型數據的研究有著重要的理論意義和研究價值。