基於Universum學習的降維方法研究

基於Universum學習的降維方法研究

《基於Universum學習的降維方法研究》是依託南京航空航天大學,由陳曉紅擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於Universum學習的降維方法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:陳曉紅
  • 依託單位:南京航空航天大學
項目摘要,結題摘要,

項目摘要

高維數據廣泛存在於眾多領域,對其進行降維是模式識別的核心之一。現有降維方法通常僅利用目標類樣本作為訓練樣本,忽視了現實中大量存在的目標類以外的數據,即Universum。研究者最近提出的Universum學習方法正是利用目標外樣本數據提高了分類和聚類學習效果,但至今尚未有人結合降維開展研究工作。本項目旨在通過與現有降維方法的結合,設計一個利用目標外樣本數據的一般性降維框架,設計監督和半監督降維算法,探究目標外樣本數據對降維的影響和自適應選擇目標外樣本數據的策略。進一步,將其擴展到高維多視圖數據的降維,設計基於Universum學習的多視圖數據降維算法,進而拓展出更廣義的Universum學習。整個工作圍繞建模、算法設計與實現、理論分析和實驗對比等系統展開。

結題摘要

典型相關分析(Canonical correlation analysis,CCA) 是一種經典的多元統計分析方法,可通過最大化不同視圖間的相關性同時實現高維多視圖數據的降維。CCA的目標函式僅僅關注樣本的相關性,因此具有一定的局限性。目前已有很多研究者利用不同的方式將樣本的類信息融入降維過程,從而設計出各種監督型或者半監督型降維方法。所有這些方法都是基於目標類樣本,也就是說即使我們不知道每個樣本具體屬於哪一類,但是每個訓練樣本總是屬於其中某一類。實際上,我們獲得的訓練樣本可能還包含與目標類同域而不同類的樣本,這些樣本稱之為Universum數據. 最近有很多研究者利用Universum數據改進分類、聚類和降維算法,顯著提高了原有算法的性能,這些方法統稱為Universum學習。受此啟發,我們將Universum學習與相關分析相結合,分別改進CCA和DCCA,設計了兩種針對多視圖數據的降維算法UCCA和UDCCA。這兩種算法均要求目標類數據的兩組變數的投影相關性最大,Universum數據的兩組變數的投影相關性最小。不同之處是後者進一步要求目標類數據的同類樣本的相關性最大,不同類樣本的相關性最小。分析UDCCA的結果發現雖然UDCCA利用的信息量最大,樣本間的可分離性並不是最大。我們進一步改進其目標函式,要求同一個視圖內的目標類樣本與Universum數據的相關性也要最小,從而體現兩種訓練樣本的區別, 從而使得提取的新特徵具有更強的區分性。我們將這種算法稱其為增強型UDCCA(Enhanced Universum Canonical Correlation Analysis)。對於這三種算法,分別在人工數據集、UCI數據集、USPS數據集、MFD數據集和ORL數據集進行實驗對比,其結果也顯示了算法的優越性。

熱門詞條

聯絡我們