最小冗餘特徵選擇

最小冗餘特徵選擇是一種經常被用於識別genes和phenotypes的特徵並縮小它們之間的相關性的算法。

其經常與相關性特徵選擇算法,比如最小冗餘最大相關性(mRMR)成對使用。
特徵選擇模式識別機器學習的一個基本問題。識別數據中和使用的參數相關的子集,一般被稱作最大相關。這些子集一般包含相關並冗餘的數據,mRMR嘗試通過移除這些冗餘子集以定位這個問題。mRMR在多個領域有著廣闊的套用,比如癌症診斷和語音識別。
特徵可以通過多種方法進行選擇。一種方式是選擇和分類變數相關性最強的特徵。這被稱為最大相關選擇。可以使用很多啟發式算法,比如順序前向(sequential forward),後向(backward)或浮動選擇(floating selections)。
另一方面,特徵可以通過相互距離很遠但仍然與分類變數“高”相關的方式進行選擇。這種方式被稱為最小冗餘最大相關(mRMR)選擇被發現比最大相關選擇更加強大。
作為一種特殊情況,“相關性”可以被替換為變數間的統計學依賴關係(statistical dependency)。互動信息可以被用於量化依賴關係。在這種情況下,mRMR是一種最大化選擇的特徵的聯合分布(joint distribution)和分類變數之間依賴關係的估計。
研究已經嘗試了對冗餘和相關性測量不同的測量方法。一個最近的研究比較了多個在醫療圖像內容之間的不同的測量。

相關詞條

熱門詞條

聯絡我們