Yeo-Johnson變換

Yeo-Johnson變換

Yeo-Johnson變換(Yeo-Johnson transformation)或“Yeo-Johnson冪變換(Yeo-Johnson power transformation)”是冪變換(power transformation)的方法之一,通過構建一組單調函式隨機變數進行數據變換

Yeo-Johnson變換具有冪變換的一般性質,能夠減小隨機變數的異方差性(heteroscedasticity)並放大其正態性(normality),使其機率密度函式的形態向常態分配靠近。Yeo-Johnson變換的特點在於其可被套用於包含0值和負值的樣本中,因此其也被認為是Box-Cox變換實數域的推廣。

Yeo-Johnson變換作為數據標準化的方法之一被套用於數據挖掘機器學習數據預處理階段。當隨機變數正態性較差時,對其使用Yeo-Johnson變換進行預處理,有利於對該隨機變數進行基於正態假設的統計分析。

基本介紹

  • 中文名:Yeo-Johnson變換
  • 外文名:Yeo-Johnson transformation
  • 類型:數據變換,冪變換
  • 提出者:In-Kwon Yeo,Richard A. Johnson
  • 提出時間:2000年
  • 學科:統計學
  • 套用:機器學習,數據挖掘
歷史,定義,

歷史

在Yeo-Johnson變換提出之前,一些與其存在聯繫的冪變換研究已經得到展開,其中較重要的包括對正實數範圍內隨機變數進行偏度(skewness)修正的Box-Cox變換、對全實數域內的隨機變數進行峰度(kurtosis)修正的Bickel-Doksum變換。Yeo-Johnson變換的正式提出來自江源大學學者In-Kwon Yeo和威斯康星大學麥迪遜分校(University of Wisconsin-Madison)學者Richard A. Johnson,二者在2000年發表的一份研究正式提出並命名了Yeo-Johnson變換。

定義

給定實數域上的隨機變數
,Yeo-Johnson變換是一組由冪函式組成的分段函式,當隨機變數非負時,其表達式為:
當隨機變數取負值時,其表達式為:
式中
為變換係數,類比Box-Cox變換,該係數可以由極大似然估計確定。在機器學習體系下,常見的做法是由學習樣本估計變換係數並將其帶入測試樣本中進行計算。

相關詞條

熱門詞條

聯絡我們