《特徵選擇中的全局最優搜尋策略研究》是依託南京理工大學,由嚴慧擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:特徵選擇中的全局最優搜尋策略研究
- 項目類別:青年科學基金項目
- 項目負責人:嚴慧
- 依託單位:南京理工大學
項目摘要,結題摘要,
項目摘要
特徵選擇是一門多學科的交叉研究方向,它涉及統計學、數據挖掘、模式識別和機器學習等相關學科,在生物信息學、醫學、信息檢索等諸多領域具有廣泛套用前景。傳統的特徵選擇以代價換取簡單、快速的搜尋策略實現,不能保證最優,甚至有時獲得很不理想的特徵子集。本項目以高維空間中的數據為研究對象,以全局最優特徵子集的搜尋方式為科學問題,深入挖掘特徵抽取中的投影方式與特徵選擇中最優搜尋之間的緊密聯繫,實現了兩者在特定條件下的可通行。本項目研究的預期成果是:(1)採用特殊的矩陣投影方式替代傳統特徵選擇流程中的逐漸增加(或刪除)特徵的搜尋路徑,力圖構造一個存在全局最優解的組合最佳化問題;(2)定義出與矩陣投影方式相匹配的特徵評估準則,包括基於信息熵、稀疏表示理論、圖論的度量方式;(3)設計針對0-1大規模稀疏矩陣求解的最佳化算法。本項目對拓展傳統特徵搜尋理論和算法有十分重要的意義,且具有十分廣闊的套用前景。
結題摘要
傳統的特徵選擇方法常常分步選擇特徵,不能保證所選特徵子集的最優性。本項目以全局最優特徵子集的搜尋方式為研究內容,取得的主要學術成果包括: 1. 源於統計或幾何理論的濾波方法都是一個一個地選擇特徵。這類方法忽略了特徵間的相關性,所以獲得的特徵子集是次優的。為了解決這個不足,我們提出了同步特徵權重學習框架,它能夠自動確定最優特徵子集的大小,且選擇出針對給定連線圖的最優特徵子集。具體地說,此框架對特徵權重施加了非負和l2,2範數約束,且疊代地同步學習特徵權重。針對提出的非凸目標函式,我們設計了新的且可收斂的最小化算法。在此框架下,我們提出了一種新的非監督特徵選擇算法,命名為同步拉普拉斯特徵權重學習算法。最後,實驗結果也表明:我們的方法在五個真實庫上是有效的。 2. 我們將基於稀疏表示分類器的度量方式引入特徵選擇中,並提出了稀疏鑑別特徵選擇方法。我們的目標函式致力於在特徵子集空間中,找到最小化類內重構殘差且最大化類間重構殘差的特徵子集。我們分別提出了貪婪搜尋算法和同步搜尋算法以解決聯合最佳化目標函式。具體地說,我們的同步選擇算法在目標函式中施加了l2,1範數約束,降低了特徵間冗餘性,且同步學習特徵權重。最後,實驗結果也表明:我們的方法在測試數據集上是有效的。 3. 局部保持度量準則常常被用來度量特徵的好壞。但是,基於局部保持準則的非監督特徵選擇算法有兩個廣為人知的不足:(1) 特徵選擇的好壞非常依賴於相似矩陣構造的好壞。而相似矩陣一般都是在原特徵空間中構造的,因此,它可能和加權特徵空間中的相似矩是不一致的。(2) 貪婪搜尋策略常常忽略了特徵間的相關性和冗餘性。為了彌補以上的不足,我們提出了新的非監督特徵選擇方法,此方法在加權特徵空間中同步且自適應選擇近鄰。為了解決目標函式,我們提出了有效的疊代算法,此算法每次疊代中需解決一個凸的子問題,此子問題可以用現有的工具包有效解決。最後,實驗結果也表明:我們的方法在UCI和人臉數據集上是有效的,並且和目前流行的監督和非監督特徵選擇相比,分類率更高。