泰爾-森估算

泰爾-森估算(英語:Theil–Sen estimator)是非參數統計中一種擬合直線的穩健模型,名稱來源於荷蘭計量經濟學家亨利·泰爾與美國統計學家普拉納布·森。

基本介紹

  • 中文名:泰爾-森估算
  • 外文名:Theil–Sen estimator
  • 性質:穩健模型
  • 學科:信號與系統
概述,定義,變化,套用,

概述

泰爾-森估算(英文:Theil–Sen estimator)是通過選擇通過成對點的所有線的斜率的中值來穩健地將線擬合到平面中的採樣點(簡單線性回歸)的方法。 它也被稱為Sen的斜率估計,斜率選擇,單中值方法,Kendall魯棒線擬合方法,和Kendall-Theil魯棒線。 它以Henri Theil和Pranab K. Sen命名,他們分別在1950年和1968年以及Maurice Kendall之後發表了關於這種方法的論文。
該估計器可以有效地計算,並且對異常值不敏感。 對於偏斜和異方差數據,它可以比非魯棒簡單線性回歸明顯更準確,並且就統計功效而言,即使對於常態分配的數據也能很好地與非魯棒最小二乘法競爭。它被稱為“用於估計線性趨勢的最流行的非參數技術”。

定義

假設有二維樣本數據(xi,yi),泰爾-森估算是指所有樣本點對所形成的斜率(yjyi)/(xjxi)的中位數m。當擬合直線的斜率m確定後,可再由yimxi的中位數確定擬合直線的截距。
一旦確定了斜率m,就可以通過將y截距b設定為值yi-mxi的中值來確定來自採樣點的線。正如Sen觀察到的那樣,這個估計量是使得Kendall tau秩相關係數比較xi的值與第i次觀測的殘差的值近似為零。
斜率估計的置信區間可以被確定為包含由點對確定的線的中間95%的斜率的區間,並且可以通過採樣點對並且確定採樣的95%間隔來快速估計。連續下坡。根據模擬,大約600個樣本對足以確定準確的置信區間。
泰爾-森估算不易受離群值影響。對於偏態分布或異方差的數據,泰爾-森估算的準確度遠高於非穩健的簡單線性回歸,而對於常態分配數據而言其與非穩健模型相比也有著相當的統計功效

變化

Theil-Sen估計量的變化,Siegel(1982)的重複中值回歸,確定每個樣本點(xi,yi),通過斜率的中間(yjyi)/(xjxi)那一點,然後將整體估計量確定為這些中位數的中位數。它可以容忍比Theil-Sen估計器更多的異常值,但用於計算它的已知算法較慢。
不同的變體通過其x坐標的等級(具有最小坐標的點與中間坐標上方的第一點配對等)將樣本點配對,並計算由這些對確定的線的斜率的中值。分數。
基於加權中值的Theil-Sen估計量的變化也已經被研究,基於x坐標差異更大的樣本對更可能具有準確的斜率並因此應該獲得更高權重的原則。
對於季節性數據,通過僅考慮屬於同一個月或一年中同一季節的樣本點對,並找出由下面確定的線的斜率的中值,可以適當地平滑數據中的季節性變化。這種限制性更強的一對。

套用

由於具有處理刪失回歸模型的能力,Theil-Sen估計已套用於天文學。在生物物理學中,Fernandes & Leblanc(2005)建議將其用於遙感套用,例如從反射數據估計葉面積,因為它“計算簡單,置信區間的分析估計,對異常值的魯棒性,殘差和殘差的可測試假設”。 ..限制關於測量誤差的先驗信息“。 為了測量季節性環境數據,例如水質,經季節性調整的Theil-Sen估計變數已被提議優於最小二乘估計,因為它存在偏斜數據時的高精度。在計算機科學中,Theil-Sen方法已用於估計軟體老化的趨勢。在氣象學氣候學中,它已被用於估計風速和發生的長期趨勢。

相關詞條

熱門詞條

聯絡我們