高維數據特徵選擇的穩定性研究

高維數據特徵選擇的穩定性研究

《高維數據特徵選擇的穩定性研究》是依託廈門大學,由楊帆擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:高維數據特徵選擇的穩定性研究
  • 項目類別:青年科學基金項目
  • 項目負責人:楊帆
  • 依託單位:廈門大學
項目摘要,結題摘要,

項目摘要

高維特徵選擇的穩定性是一個重要而又尚未解決的難題。已有的特徵選擇研究主要關注學習機器的預測準確率和計算效率,以準確率及其相關指標作為評價特徵選擇結果的依據。然而在高維數據空間中,訓練數據集上的微小變化會造成特徵選擇結果的不穩定和不可靠。本項目以基因表達數據為研究對象,從高維數據空間和基因表達數據的分布特點出發,分析高維數據特徵選擇不穩定性的可能來源,以改善其穩定性和可靠性。.研究內容包括:通過分析高維數據分布的特點,建立特徵選擇的穩定性指標;通過對經典特徵選擇算法的分析,研究基於目標函式的特徵評價準則;考慮到特徵之間的關聯性,提出基於隱變數模型的特徵選擇策略;針對數據分布的局部性,設計基於分解的多分類特徵選擇方法;進一步考慮到類內分布的多樣性,提出聚類-特徵選擇的遞歸式局部特徵選擇策略。本項目的研究成果將提升高維特徵選擇的穩定性,並將套用到基因選擇、基因調控網路和癌症亞型的發現中。

結題摘要

本項目針對高維特徵選擇的穩定性問題,以基因表達數據為研究對象,從高維數據的特點出發,分析特徵選擇不穩定性的可能來源,進而提出相關方案以改善其穩定性。針對基因表達數據特徵選擇的穩定性問題,提出一系列新的思想、研究方案和算法;在Matlab平台上實現了已有的基因表達數據分析的若干經典特徵選擇算法,並設計實現了若干種分別基於支持向量機和隨機森林的新算法;進而針對非平衡分類、多示例學習、聚類等問題,開展了深入研究;針對基因表達數據、微生物群落的高通量測序數據以及其他高維數據,進行套用研究。本項目按計畫實現了預期研究目標和任務,發表SCI或者EI檢索的論文17篇,接收1篇,其中JCR3區以上期刊論文10篇,國際會議論文6篇。 (1)對高維空間中數據分布特點和距離度量函式進行了研究,結果表明,高維空間中數據分布的稀疏性特點導致不同度量函式結果的差異性。提出了隨機森林算法特徵選擇的內在穩定性問題,分析了其建模過程中隨機機制的影響,對比分析了參數、數據集特點和數據擾動的影響,揭示了隨機森林內部存在的不穩定性;考慮到集成學習算法的間隔理論,根據特徵對隨機森林的間隔分布的影響設計了新的特徵選擇算法;提出一種基於集成學習的Multi-relief-F算法,結果更加穩定。 (2) 提出一種新的特徵選擇算法框架(ARFS),利用Kolmogorov算法隨機性檢測,評價特徵的重要性。分別設計了ARFS-RF,ARFS-SVM和ARFS-NB算法;提出一種隨機森林特徵選擇的遞歸特徵消除算法。 (3)提出了基於類分解的特徵選擇算法。針對數據非平衡問題,提出了基於類分解的非平衡特徵選擇算法,進一步提出採用聚類算法進行分解。結果驗證了項目書提出的猜想,即尋找全局的特徵子集是不必要的,在某些情形下甚至是錯誤的。 基於分解的特徵選擇比全局的特徵選擇算法有更好的穩定性; (4)探討了多標記學習問題中的特徵選擇穩定性問題。通過引入Conformal Predictor,提出一種新的多標記學習算法; (5)探討了聚類集成中差異性和質量對集成效果的影響,結果表明,在聚類成員質量達到一定程度後,差異性起到了更大的作用。據此設計了2種新的聚類集成算法: RS-NN和FS-RS-NN; (6)對基因表達數據的預處理、基於物種相似性的真核生物基因註解、微生物種群的高通量測序數據等問題開展了套用研究。

相關詞條

熱門詞條

聯絡我們