離群點

離群點，因此，也稱之為歧異值，有時也稱其為野值。

概括的說，離群點是由於系統受外部干擾而造成的。但是，形成離群點的系統外部干擾是多種多樣的。首先可能是採樣中的誤差，如記錄的偏誤，工作人員出現筆誤，計算錯誤等，都有可能產生極端大值或者極端小值。其次可能是被研究現象本身由於受各種偶然非正常的因素影響而引起的，例如。在人口死亡序列中，由於某年發生了地震，使該年度死亡人數劇增，形成離群點；在股票價格序列中，由於受某項政策出台或某種謠傳的刺激，都會出現極增，極減現象，變現為序列中的離群點。

不論是何種原因引起的離群點對以後的時間序列分析都會造成一定的影響。從造成分析的困難來看，統計分析人員說不希望序列中出現離群點，離群點會直接影響模型的擬合精度，甚至會得到一些虛偽的信息。例如，兩個相距很近的離群點將在譜分析中產生許多虛假的頻率。因此，離群點往往被分析人員看作是一個“壞值”。但是，從獲得信息來看，離群點提供了很重要的信息，它不僅提示我們認真檢查採樣中是否存在差錯，在進行時間序列分析前，認真確認序列，而且，當確認離群點是由於系統受外部突發因素刺激而引起的時候，他會提供相關的系統穩定性，靈敏性等重要信息。

在時間序列分析中通常把離群點分為四種類型進行處理。第一類是加性離群點。造成這種離群點的干擾，只影響該干擾發生的那一時刻T上的序列值，即XT而不影響該時刻以後的序列值；第二種是更新離群點，造成離群點的干擾不僅作用於XT，而且影響T時刻以後序列的所有觀察值，它的出現意味著一個外部干擾作用於系統的開始，並且其作用方式與系統的動態模型有關；第三種樹水平位移離群點，造成這種離群點的干擾素在某一時刻T，系統的結構發生了變化，並持續影響T時刻以後的所有行為，在數列上往往變現為T時刻前後的序列均值發生水平位移；第四種是暫時變更離群點，造成這種離群點的干擾是在T時刻干擾發生時具有一定初始效應，以後隨時間根據衰減因子的大小呈指數衰減的一類干擾事件。

總結一下，離群點(outlier)是一個數據對象，它顯著不同於其他數據對象，就像是被不同的機制產生一樣，在樣本空間中，與其他樣本點的一般行為或特徵不一致的點。值得注意的是，離群點並不是異常值。（比如說，A月薪50w，B、C、D月薪5000，雖然A月薪異常於樣本集，是離群點，但是它並不是異常值。）

離群點檢測

離群點檢驗就是通過多種檢測方法找出其行為不同於預期對象的數據點的過程。

根據正常數據和離群點的假定分類，可以分為以下4種方法：

基於統計的方法；

離群點機率定義：離群點是少數異常於正常數據集的數據對象，在機率分布模型中，具有低機率。

基於統計的離群點檢測一般遵循以下思路：

設定數據集的分布模型——不和諧檢驗——發現離群點

因為離群點在機率分布模型中低機率出現，可以通過檢測低機率的數據對象或數據樣本，不過缺點也較為明顯，低機率出現的樣本不一定也是離群點（比如進貨客戶群中，進貨量大的客戶雖然少，但是也是我們需要的對象）

離群點

基本介紹

離群點

離群點檢測

基於統計的方法；

基於鄰近性的方法；

基於聚類的方法；

基於分類的方法

離群點檢測存在的問題

正常對象和離群點的有效建模：

針對套用的離群點檢測：

離群點檢測中處理噪聲：

可理解性：

相關詞條

熱門詞條