組內平方和

組內平方和

組內平方和又稱殘差平方和、誤差平方和等,根據n個觀察值擬合適當的模型後,餘下未能擬合部份(ei=yi一y平均)稱為殘差,其中y平均表示n個觀察值的平均值,所有n個殘差平方之和稱誤差平方和。在回歸分析中通常用SSE表示,其大小用來表明函式擬合的好壞。將殘差平方和除以自由度n-p-1(其中p為自變數個數)可以作為誤差方差σ2無偏估計,通常用來檢驗擬合的模型是否顯著。

基本介紹

  • 中文名:組內平方和
  • 外文名:Within Groups Sum of Squares
  • 所屬學科:數學(統計學)
  • 別稱:殘差平方和、誤差平方和
  • 相關概念:回歸分析,方差分析等
基本介紹,總偏差平方和,組內平方和與組間平方和,SE與SA的統計特性,單因素方差分析,基本概念,假設前提,

基本介紹

總偏差平方和

在單因素方差分析(見下文)中,為了使造成各隨機變數Xij之間的差異的大小能定量表示出來,引人:
記在水平Ai下樣本和為
,其樣本均值為
因素A下的所有水平的樣本總均值為
為了通過分析對比產生樣本
之間差異性的原因,從而確定因素A的影響是否顯著,我們引人偏差平方和來度量各個體間的差異程度
因ST能反映全部試驗數據之間的差異,所以又稱為總偏差平方和

組內平方和與組間平方和

如果H0成立,則r個總體間無顯著差異,也就是說因素A對指標沒有顯著影響,所有的Xij可以認為來自同一個總體
,各個Xij間的差異只是由隨機因素引起的,若H0不成立,則在總偏差中,除隨機因素引起的差異外,還包括由因素A的不同水平的作用而產生的差異,如果不同水平作用產生的差異比隨機因素引起的差異大得多,就認為因素A對指標有顯著影響,否則,認為無顯著影響。為此,可將總偏差中的這兩種差異分開,然後進行比較。
則有下面的定理:
定理1(平方和分解定理)
,有
SE表示在水平Ai下樣本值與樣本均值之間的差異,它是由隨機誤差引起的,稱為誤差平方和組內平方和。SA反映在每個水平下的樣本均值與樣本總均值的差異,它是由因素A取不同水平引起的,稱為因素A的效應平方和組間平方和,ST=SE+SA式就是我們所需要的平方和分解式。

SE與SA的統計特性

如果H0成立,則所有的Xij都服從常態分配
,且相互獨立,則有:
定理2
(1)
,且
,所以
為σ2的無偏估計;
(2)
,且
,因此
為σ的無偏估計;
(3)SE與SA相互獨立;
(4)

單因素方差分析

基本概念

在方差分析中,我們將要考察的對象的某種特徵稱為試驗指標,影響試驗指標的條件稱為因素,因素可分為兩類,一類是人們可以控制的(如原材料、設備、學歷、專業等因素);另一類人們無法控制的(如員工素質與機遇等因素)。下面所討論的因素都是指可控制因素。每個因素又有若干個狀態可供選擇,因素可供選擇的每個狀態稱為該因素的水平。如果在一項試驗中只有一個因素在改變,則稱為單因素試驗;如果多於一個因素在改變,則稱為多因素試驗。因素常用大寫字母A,B,C,…來表示,因素A的水平用
來表示,下面對單因素試驗進行討論。

假設前提

設單因素A具有r個水平,分別記為
,在每個水平
下,要考察的指標可以看成一個總體,故有r個總體,並假設:
(1)每個總體均服從常態分配,即
(2)每個總體的方差σ2相同;
(3)從每個總體中抽取的樣本
相互獨立,i=1,2,…,r。
此處的
均未知,將假設及相關符號列表,如表1所示。
表1 單因素試驗參數
水平




樣本















樣本和




樣本均值




總體




總體均值




那么,要比較各個總體的均值是否一致,就是要檢驗各個總體的均值是否相等,設第i個總體的均值為μi,則
假設檢驗為
備擇假設為
不全相等。
在水平
下,進行
次獨立試驗,得到試驗數據
,記數據的總個數為
由假設有
(
未知),即有
,故
可視為隨機誤差。記
,從而得到如下數學模型:
,各個
相互獨立,μi
未知。
方差分析的任務:
(1)檢驗該模型中r個總體
的均值是否相等;
(2)作為未知參數
的估計。
為了更仔細地描述數據,常在方差分析中引入總平均和效應的概念,將
各均值的加權平均值
記為μ,即
其中
再引入
δi表示在水平Ai下總體的均值μi與總平均μ的差異,稱其為因子A的第i個水平Ai的效應。易見,效應間有如下關係式
利用上述記號,前述數學模型可改寫為
,各個
相互獨立,μi
未知。
而前述檢驗假設則等價於
不全為零.
這是因為若且唯若
時,
,即

相關詞條

熱門詞條

聯絡我們