線性分類器

機器學習領域,分類的目標是指將具有相似特徵的對象聚集。而一個線性分類器則透過特徵的線性組合來做出分類決定,以達到此種目的。對象的特徵通常被描述為特徵值,而在向量中則描述為特徵向量。

基本介紹

  • 中文名:線性分類器
  • 外文名:Linear classifier
  • 目標:具有相似特徵的對象聚集
  • 學科:人工智慧
定義,生成模型與判別模型,二次分類器,

定義

如果輸入的特徵向量是實數向量
,則輸出的分數為:
其中
是一個權重向量,而f是一個函式,該函式可以通過預先定義的功能塊,映射兩個向量的點積,得到希望的輸出。權重向量
是從帶標籤的訓練樣本集合中所學到的。通常,"f"是個簡單函式,會將超過一定閾值的值對應到第一類,其它的值對應到第二類。一個比較複雜的"f"則可能將某個東西歸屬於某一類。
對於一個二元分類問題,可以構想成是將一個線性分類利用超平面劃分高維空間的情況: 在超平面一側的所有點都被分類成"是",另一側則分成"否"。
作為最快分類器,線性分類器通常套用於對分類速度有較高要求的情況下,特別是當
為稀疏向量時。雖然如此,決策樹可以更快。此外,當
的維度很大時,線形分類器通常表現良好。如文本分類時,傳統上,
中的一個元素是文章所使用到的某個辭彙的出現的次數。在這種情況下,分類器應被適當地正則化

生成模型與判別模型

有兩種類型用來決定
的線性分類器。第一種模型條件機率
。這類的算法包括:
第二種方式則稱為判別模型(discriminative models),這種方法是試圖去最大化一個訓練集(training set)的輸出值。在訓練的成本函式中有一個額外的項加入,可以容易地表示正則化。例子包含:
  • Logit模型---的最大似然估計,其假設觀察到的訓練集是由一個依賴於分類器的輸出的二元模型所產生。
  • 感知元(Perceptron) --- 一個試圖去修正在訓練集中遇到錯誤的算法。
  • 支持向量機--- 一個試圖去最大化決策超平面和訓練集中的樣本間的邊界(margin)的算法。
注意:相對於名字,線性判別分析在分類學並不屬於判別模型這類。然而,當我們比較線性判別分析和另一主要的線性降維算法:主成分分析,它的名字則是有意義的。線性判別分析是一個監督式學習算法,會使用資料中的標籤。而主成分分析是一個不考慮標籤的非監督式學習算法。簡而言之,這個名字是一個歷史因素。
判別訓練通常會比模型化條件密度函式產生較高的準確。然而,在處理遺失資料時,使用條件密度模型通常是更為簡單的。
所有以上所列線性分類器算法,只要使用kernel trick都可被轉成在另一個向量空間的非線性算法。

二次分類器

二次分類器是在機器學習中,使用二次曲面來將物件或事件分成兩個或以上的分類。 它是線性分類器的一般化版本。
統計分類考慮一個集合,每一個元素是一個對物件或事件觀察後所得的向量x,每一個都被分成y。 這個集合一般被稱為訓練資料。 問題是在於,要如何決定一個新的觀察項目其最好的類別應是哪一種。 對一個二次分類器,它假設其解會成二次關係,所以y是由以下來決定:
在特列的情況下,每個觀察牽涉到兩個測量項。 這意味著,這切分的平面將是圓錐曲線之一(如:直線橢圓拋物線雙曲線)。

相關詞條

熱門詞條

聯絡我們