研究現狀
近年來,數據描述或單類(One-class)分類問題得到了大量的研究。在域描述領域中,數據描述的任務不是分類問題以“區分不同的類”為目標,也不是回歸問題以“對每一個樣本產生一個期望輸出”為目標,而是給出一個關於訓練樣本集的描述,同時檢測哪些與這個訓練樣本集相似的(新的)樣本。該描述應該覆蓋代表訓練樣本集的樣本類,同時,在理想情況下,該描述應該能夠將樣本空間中其它所有可能的異常樣本排除在外。Tax和Duin提出了一種數據描述方法,即支持向量數據描述(SVDD)。
近年來,作為一種數據描述方法,SVDD得到了極大的關注,關於SVDD的研究取得了大量的研究成果。1999年,Tax和Duin首次提出了SVDD。2004年,Tax和Duin又對SVDD進行了拓展和更完整的研究,分別得到了不帶負樣本和帶負樣本的SVDD。SVDD是一種基於邊界數據(支持向量)的描述方法,其目標是尋求一個包含所有或幾乎所有的目標樣本且體積最小的超球體或域。SVDD的邊界函式可通過一個
超球面(Hypersphere)進行刻畫,通過將目標樣本點映射到能夠更容易進行球形描述的高維空間(或特徵空間),可能會減弱超球面所受到的限制。這就是統計學和機器學習領域著名的核技巧(Kernel Trick)和方法。Scholkopf等人提出一種與單類分類有著概念性差異的方法,該方法的超平面被用於將目標樣本與原點分離開來。當使用徑向基擴展(Radial Basis Expansions)時,該方法的解等價於具有徑向基擴展的SVDD的解。Lee等人提出了一種改進的支持向量數據描述方法,即密度誘導的支持向量數據描述。D-SVDD首先對每一個目標數據點的密度進行估計,並對所估計的密度進行加權,再將加權的密度引入到SVDD,從而改進了SVDD,每個目標數據點的密度通過K-最鄰近或者Parzen窗方法得到。實驗結果表明,D-SVDD優於SVDD和K-最鄰近或者Parzen視窗得到。實驗結果表明,D-SVDD優於SVDD和K-最近鄰數據描述。基於SVDD,Guo等人提出一個異常檢測的邊界方法,這種邊界方法試圖通過對SVDD邊界的調整,以獲得一個緊的數據描述而不需通過核白化(Kernel Whitening),即通過在樣本空間中引入一個樣本與其最近鄰邊界點之間的距離,在SVDD邊界的基礎上,該方法能夠有效地構造一個新的決策邊界。Zhang等人得到了一種基於SVDD方法的模糊多類分類器,這種分類器改進了可能性C一均值聚類。
主要思想
SVDD的主要思想是:首先,通過非線性映射中將原始訓練樣本x,映射到高維的內積空間(或特徵空間);然後,在特徵空間中尋找一個包含全部或大部分被映射到特徵空間的訓練樣本且體積最小的超球體(最優超球體);最後,通過非線性映射中,如果新樣本點在特徵空間中的像落入最優超球體內,則該樣本被視為一個正常點;否則,如果新樣本在特徵空間中的像落入到最優超球體外,則該新樣本被視為一個異常點最優超球體由其球心和半徑決定。在SVDD的套用研究中,通常是將一個樣本類視為異常樣本類,而所有其它的樣本類被視為目標數據集(或目標集)。
缺點
對於包含多個樣本類的目標數據集,傳統的SVDD只能對目標數據集給出一個描述,而忽略了目標數據集中不同樣本類之間的描述(或差異)。在現實生活中,目標數據集通常不止包含一個樣本類,並且每一個樣本類都需要被同時描述。例如,在上面提到的機器診斷問題中,兩台不同機器的運行狀態由同一個檢測器檢測。當一台機器出現問題時,就會出現警報,並且我們希望該警報可以告訴我們是哪一台機器出現了故障.在這種情況下,一台機器處於正常工作狀態的數據被視為目標數據集中的一個樣本類,同時另一台機器處於正常工作狀態的數據則被視為目標數據集中的另一個樣本類.這樣一來,目標數據集由兩台不同機器正常工作的數據(對應兩個樣本類)構成.異常點就是機器出現故障的樣本數據,因此,異常數據的獲取是非常昂貴的,需要以機器出現故障為代價。上述機器診斷問題是一個含兩個樣本類的異常探測問題.為了設計能夠同時探測兩台機器故障的檢測器,我們需要解決如下的異常探測問題,即同時對目標數據集中的每一個樣本類給出一個超球形的描述。
套用
SVDD在很多領域中都具有廣泛的套用。首先,SVDD被用於異常檢測,即從一個資料庫中檢測出無典型特徵的的樣本。它還用於高光譜遙感成像的異常檢測。SVDD也被用於從多個具有不同紋理背景的織物樣本資料庫進行缺陷檢測。SVDD的還有許多其它套用,如泵故障檢測、臉部識別、語音識別、圖像恢復和醫學成像等。其次,SVDD可以用於某些特殊的分類問題,在這些特殊的分類問題中,標數據集含有一個被嚴重欠採樣的樣本類(異常類),而其它類樣本被很好地採樣.我們可以看到,SVDD在異常點檢測中套用本質上與含一個欠採樣的樣本類(異常類)的分類問題相同。一個實際的例子是機器診斷問題。在機器診斷問題中,一台機器的運行狀態得到監測。當機器出現問題時,監測器就會給出警報。一台機器的正常工作狀態的測量容易獲得而且測量的成本很低,而異常樣本點的測量非常昂貴,因為它要求各種形式的機器破壞。但是,另外一個相似卻更加複雜的機器診斷問題是:一台監測器同時檢測兩台不同機器的運行狀態(相應於兩個樣本類).當其中一台機器出現故障時,監測器就會給出警報,並且該警報會顯示是哪一台機器出了故障.在這種情況下,兩台機器的正常工作狀態的測量就很容易得到,而異常樣本點的測量非常昂貴,因為它要求兩台機器以各種形式遭到破壞。
另外,SVDD也被用於多類分類問題。SVDD的優勢是能夠將對樣本觀察集的、密度(Density)的模擬歸結到SVDD的支持向量上,這使的SVDD是許多大邊界分類器(比如支持向量機)的自然替代分類器。Lee在SVDD的基礎上提出了一種多類分類方法,類似的方法也被Chio等人,Ban和Abe所提出,針對非平穩類的一類分類問題,Camci和Chinnam提出了一個廣義的支持向量代表機。Kang和Choi提出了一種域密度描述方法,這種方法用SVDD刻畫了在特徵空間中一個測試樣本與高密度區或高密度域之間的距離,並且能夠降低多類問題的訓練和測試的計算量。Zhang等人得到了一種基於SVDD方法的模糊多類分類器。