正則化運算元

定義

機器學習中的一個核心問題是設計不僅在訓練數據上表現好，並且能在新輸入上泛化好的算法。在機器學習中，許多策略顯式地被設計為減少測試誤差（可能會以增大訓練誤差為代價）。這些策略被統稱為正則化。

正則化是通過對學習算法的修改以減少泛化誤差而不是訓練誤差的策略。有些策略向機器學習模型添加限制參數的額外約束。有些策略向目標函式增加參數值軟約束的額外項。如果仔細選擇，這些額外的約束和懲罰可以改善模型在測試集上的表現。有時侯，這些約束和懲罰被設計為編碼特定類型的先驗知識；其他時候，這些約束和懲罰被設計為偏好簡單模型，以便提高泛化能力。有時，懲罰和約束對於確定欠定的問題是必要的。其他形式的正則化（如集成方法）結合多個假說來解釋訓練數據。

目標

在深度學習的背景下，大多數正則化策略都會對估計進行正則化。估計的正則化以偏差的增加換取方差的減少。一個有效的正則化是有利的 ‘‘交易’’，也就是能顯著減少方差而不過度增加偏差。

在模型族訓練的過程中，存在 3 個情形：

（1）不包括真實的數據生成過程——對應欠擬合和含有偏差的情況；

（2）匹配真實數據生成過程；

（3）除了包括真實的數據生成過程，還包括許多其他可能的生成過程——方差（而不是偏差）主導的過擬合。

正則化的目標是使模型從第三種情況轉化為第二種情況。

在實踐中，過於複雜的模型族不一定包括目標函式或真實數據生成過程，甚至也不包括近似過程。我們幾乎從未知曉真實數據的生成過程，所以我們永遠不知道被估計的模型族是否包括生成過程。然而，深度學習算法的大多數套用都是針對這樣的情況，其中真實數據的生成過程幾乎肯定在模型族之外。深度學習算法通常套用於極為複雜的領域，如圖像、音頻序列和文本，本質上這些領域的真實生成過程涉及模擬整個宇宙。從某種程度上說，我們總是持方枘（數據生成過程）而欲內圓鑿（我們的模型族）。

這意味著控制模型的複雜度不是找到合適規模的模型（帶有正確的參數個數）這樣一個簡單的事情。相反，我們可能會發現，或者說在實際的深度學習場景中我們幾乎總是會發現，最好的擬合模型（從最小化泛化誤差的意義上）是一個適當正則化的大型模型。