泰爾-森估算(英語:Theil–Sen estimator)是非參數統計中一種擬合直線的穩健模型,名稱來源於荷蘭計量經濟學家亨利·泰爾與美國統計學家普拉納布·森。
基本介紹
- 中文名:泰爾-森估算
- 外文名:Theil–Sen estimator
- 性質:穩健模型
- 學科:信號與系統
概述,定義,變化,套用,
概述
泰爾-森估算(英文:Theil–Sen estimator)是通過選擇通過成對點的所有線的斜率的中值來穩健地將線擬合到平面中的採樣點(簡單線性回歸)的方法。 它也被稱為Sen的斜率估計,斜率選擇,單中值方法,Kendall魯棒線擬合方法,和Kendall-Theil魯棒線。 它以Henri Theil和Pranab K. Sen命名,他們分別在1950年和1968年以及Maurice Kendall之後發表了關於這種方法的論文。
該估計器可以有效地計算,並且對異常值不敏感。 對於偏斜和異方差數據,它可以比非魯棒簡單線性回歸明顯更準確,並且就統計功效而言,即使對於常態分配的數據也能很好地與非魯棒最小二乘法競爭。它被稱為“用於估計線性趨勢的最流行的非參數技術”。
定義
假設有二維樣本數據(xi,yi),泰爾-森估算是指所有樣本點對所形成的斜率(yj−yi)/(xj−xi)的中位數m。當擬合直線的斜率m確定後,可再由yi−mxi的中位數確定擬合直線的截距。
一旦確定了斜率m,就可以通過將y截距b設定為值yi-mxi的中值來確定來自採樣點的線。正如Sen觀察到的那樣,這個估計量是使得Kendall tau秩相關係數比較xi的值與第i次觀測的殘差的值近似為零。
斜率估計的置信區間可以被確定為包含由點對確定的線的中間95%的斜率的區間,並且可以通過採樣點對並且確定採樣的95%間隔來快速估計。連續下坡。根據模擬,大約600個樣本對足以確定準確的置信區間。
變化
Theil-Sen估計量的變化,Siegel(1982)的重複中值回歸,確定每個樣本點(xi,yi),通過斜率的中間(yj−yi)/(xj−xi)那一點,然後將整體估計量確定為這些中位數的中位數。它可以容忍比Theil-Sen估計器更多的異常值,但用於計算它的已知算法較慢。
不同的變體通過其x坐標的等級(具有最小坐標的點與中間坐標上方的第一點配對等)將樣本點配對,並計算由這些對確定的線的斜率的中值。分數。
基於加權中值的Theil-Sen估計量的變化也已經被研究,基於x坐標差異更大的樣本對更可能具有準確的斜率並因此應該獲得更高權重的原則。
對於季節性數據,通過僅考慮屬於同一個月或一年中同一季節的樣本點對,並找出由下面確定的線的斜率的中值,可以適當地平滑數據中的季節性變化。這種限制性更強的一對。