明確問題
假設
數據集由點(
xi,
yi)組成,其中
i= 1,2,...,
n。我們希望找到一個函式
f,使得
。為了達到這個目標,我們假設函式
f是一個包含一些需要確定的參數的特定形式。例如,最簡單的形式是線性的:
f(
x)=
bx+
c,其中
b和
c是其值未知但我們想要估計的參數。不太簡單,假設
f(
x)是二次的,意味著
,其中
a,
b和
c尚不清楚(更一般地說,可能不只有一個解釋器
x,而是多個解釋器,所有解釋器都出函式
f的參數中。)
我們尋找未知參數的估計值,以最小化殘差的絕對值之和:
對比最小絕對偏差和最小二乘
以下是將最小絕對偏差方法的一些性質與最小二乘法(對於非奇異問題)的特性進行對比的表格。
最小二乘回歸 | 最小絕對值偏差 |
不是特彆強大· | 強大 |
有穩定借 | 解不穩定 |
只有一個解 | 可能是多個解 |
最小絕對偏差的方法由於其與最小二乘法相比的魯棒性而在許多領域中得到套用。最小的絕對偏差是穩健的,因為它可以抵抗數據中的異常值。與OLS相比,LAD同等重視所有觀測,OLS通過對殘差進行平方,給予大殘差更多權重,即預測值遠離實際觀測值的異常值。這可能有助於研究異常值不需要比其他觀察值更大的權重。如果重要的是給予異常值更大的權重,那么最小二乘法是更好的選擇。
其他屬性
存在最小絕對偏差線的其他獨特屬性。在一組(x,y)數據的情況下,除了存在多個解之外,最小絕對偏差線將總是通過至少兩個數據點。如果存在多個解,則有效最小絕對偏差解的區域將由至少兩條線限定,每條線通過至少兩個數據點。更一般地,如果存在k個回歸量(包括常數),則至少一個最佳回歸表面將通過數據點的k。
將線“鎖定”到數據點可以幫助理解“不穩定性”屬性:如果線總是鎖定到至少兩個點,則隨著數據點的改變,線將在不同的點集之間跳轉。“鎖定”也有助於理解“魯棒性”屬性:如果存在異常值,並且最小絕對偏差線必須鎖定到兩個數據點,則異常值很可能不是這兩個點中的一個,因為這不會最小化大多數情況下絕對偏差的總和。
存在多種解決方案的一種已知情況是關於水平線對稱的一組點,如下面的圖所示
要了解圖A所示情況下存在多種解決方案的原因,請考慮綠色區域中的粉紅線。它的絕對誤差之和是一些值S.如果一個人稍微向上傾斜線,同時仍然保持在綠色區域內,則誤差總和仍然是S.它不會改變,因為從每個點到線線上的一側生長,而線的另一側的每個點的距離減少完全相同的量。因此,絕對誤差的總和保持不變。此外,由於可以以無限小的增量傾斜線,這也表明如果存在多個解,則存在無限多個解。
解方法
雖然最小絕對偏差回歸的想法與最小二乘回歸一樣簡單,但最小絕對偏差線並不像計算效率那么簡單。與最小二乘回歸不同,最小絕對偏差回歸不具有分析求解方法。因此,需要疊代方法。以下是一些最小絕對偏差求解方法的列舉。
基於單純形的方法是解決最小絕對偏差問題的“首選”方法。單純形法是一種解決線性規劃問題的方法。最流行的算法是Barrodale-Roberts修改的Simplex算法。IRLS,Wesolowsky方法和Li方法的算法可以在附錄A中找到。等方法。檢查遍歷任何兩個(x,y)數據點的所有線組合是找到最小絕對偏差線的另一種方法。由於已知至少一個最小絕對偏差線遍歷至少兩個數據點,因此該方法將通過比較每條線的SAE(數據點上的最小絕對誤差)並選擇具有最小SAE的線來找到線。此外,如果多條線具有相同的最小SAE,則線條勾勒出多個解決方案的區域。雖然很簡單,但這種最終方法對於大型數據集來說效率很低。
使用線性編程求解
在以下問題規範中使用任何線性編程技術可以解決該問題。我們希望
關於參數值的選擇
其中
yi是因變數的第
i觀測值,
xij是
j自變數的
i觀測值(
j= 1,...,
k)。我們用人工變數
ui重寫這個問題
受限於
在最小化時,目標函式等同於原始目標函式。由於此版本的問題語句不包含絕對值運算符,因此它採用可以使用任何線性編程包解決的格式。