方差

方差

方差是在機率論和統計方差衡量隨機變數或一組數據時離散程度的度量。機率論中方差用來度量隨機變數和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。

方差是衡量源數據和期望值相差的度量值。

基本介紹

  • 中文名:方差
  • 外文名:variance/deviation Var
  • 類型:D(X) 數學(統計學)
  • 研究者羅納德·費雪(Ronald Fisher)
  • 定義:數據與平均數之差平方和的平均數
  • 種類:離散型方差,連續型方差
歷史,方差的定義,方差的性質,種類及計算,離散型方差,連續型方差,隨機變數的期望和方差,離散型,連續型,示例,公式,統計學意義,最近進展,

歷史

“方差”(variance)這一詞語率先由羅納德·費雪(Ronald Fisher)在其論文《The Correlation Between Relatives on the Supposition of Mendelian Inheritance》中提出。

方差的定義

方差在統計描述和機率分布中各有不同的定義,並有不同的公式。
在統計描述中,方差用來計算每一個變數(觀察值)與總體均數之間的差異。為避免出現離均差總和為零,離均差平方和受樣本含量的影響,統計學採用平均離均差平方和來描述變數的變異程度。總體方差計算公式:
為總體方差,
為變數,
為總體均值,
為總體例數。
實際工作中,總體均數難以得到時,套用樣本統計量代替總體參數,經校正後,樣本方差計算公式:
S^2= ∑(X-
) ^2 / (n-1)
S^2為樣本方差,X為變數,
為樣本均值,n為樣本例數。
在機率分布中,設X是一個離散型隨機變數,若E{[X-E(X)]^2}存在,則稱E{[X-E(X)]^2}為X的方差,記為D(X),Var(X)或DX,其中E(X)是X的期望值,X是變數值,公式中的E是期望值expected value的縮寫,意為“變數值與其期望值之差的平方和”的期望值。離散型隨機變數方差計算公式:
D(X)=E{[X-E(X)]^2}=E(X^2) - [ E(X)]^2
當D(X)=E{[X-E(X)]^2}稱為變數X的方差,而
稱為標準差均方差。它與X有相同的量綱。標準差是用來衡量一組數據的離散程度的統計量
對於連續型隨機變數X,若其定義域為(a,b),機率密度函式為f(x),連續型隨機變數X方差計算公式:
D(X)=(x-μ)^2 f(x) dx
方差刻畫了隨機變數的取值對於其數學期望的離散程度。(標準差、方差越大,離散程度越大)
若X的取值比較集中,則方差D(X)較小,若X的取值比較分散,則方差D(X)較大。
因此,D(X)是刻畫X取值分散程度的一個量,它是衡量取值分散程度的一個尺度。

方差的性質

1、設C是常數,則D(C)=0
2、設X是隨機變數,C是常數,則有
3、設 X 與 Y 是兩個隨機變數,則
其中協方差
特別的,當X,Y是兩個不相關的隨機變數則
此性質可以推廣到有限多個兩兩不相關的隨機變數之和的情況。
4、D(X)=0的充分必要條件是X以機率1取常數E(X),即
(若且唯若X取常數值E(X)時的機率為1時,D(X)=0。)
註:不能得出X恆等於常數,當x是連續的時候X可以在任意有限個點取不等於常數c的值。
5、D(aX+bY)=a2DX+b2DY+2abCov(X,Y)。
證明
1、
2、
3、
上式右端第三項為。
若X,Y相互獨立,由數學期望的性質知道上式為0。
4、充分性:
,則有
必要性:用反證法 ,機率不會大於1,只需考慮是否等於1或小於1。
假設
,則對於某一個數
但是由切比雪夫不等式,當D(X)=0,滿足
與上式矛盾。
於是

種類及計算

離散型方差

離散型方差的計算式為:
,其中
而將上式展開後可得:

連續型方差

連續型方差的計算式為:
,其中
將上式展開後可得:
以上兩式是一樣的,只是寫法不同。
證明:由數學期望的性質得

隨機變數的期望和方差

離散型

X服從兩點分布,則
X服從超幾何分布,即
,則
X服從二項分布,即
,則
X服從泊松分布,即
,則

連續型

X服從均勻分布,即
,則
X服從指數分布,即
, 則
X 服從常態分配,即
, 則
X 服從標準常態分配,即
, 則
求常態分配的數學期望&&方差
,求E(X),D(X).
,由於
,所以
,已知E(Z)=0,D(Z)=1,從而

示例

已知某零件的真實長度為a,現用甲、乙兩台儀器各測量10次,將測量結果X用坐標上的點表示如圖:
甲儀器測量結果:
乙儀器測量結果:全是a
兩台儀器的測量結果的均值都是 a 。但是用上述結果評價一下兩台儀器的優劣,很明顯,我們會認為乙儀器的性能更好,因為乙儀器的測量結果集中在均值附近。
由此可見,研究隨機變數與其均值的偏離程度是十分必要的。那么,用怎樣的量去度量這個偏離程度呢?容易看到E[|X-E[X]|]能度量隨機變數與其均值E(X)的偏離程度。但由於上式帶有絕對值,運算不方便,通常用量E[(X-E[X])2] 這一數字特徵就是方差。
測量結果測量結果

公式

方差是實際值與期望值之差平方平均值,而標準差是方差算術平方根。 在實際計算中,我們用以下公式計算方差。
方差是各個數據與平均數之差的平方的和的平均數,即
,其中,x表示樣本的平均數,n表示樣本的數量,xi表示個體,而s^2就表示方差。
而當用
作為樣本X的方差的估計時,發現其數學期望並不是X的方差,而是X方差的
倍,
的數學期望才是X的方差,用它作為X的方差的估計具有“無偏性”,所以我們總是用
來估計X的方差,並且把它叫做“樣本方差”。
方差是和中心偏離的程度,用來衡量一批數據的波動大小(即這批數據偏離平均數的大小)並把它叫做這組數據的方差,記作S2。 在樣本容量相同的情況下,方差越大,說明數據的波動越大,越不穩定。
公式可以進一步推導為:
。其中x為這組數據中的數據,n為大於0的整數。
方差方差

統計學意義

當數據分布比較分散(即數據在平均數附近波動較大)時,各個數據與平均數的差的平方和較大,方差就較大;當數據分布比較集中時,各個數據與平均數的差的平方和較小。因此方差越大,數據的波動越大;方差越小,數據的波動就越小。
樣本中各數據與樣本平均數的差的平方和的平均數叫做樣本方差;樣本方差的算術平方根叫做樣本標準差。樣本方差和樣本標準差都是衡量一個樣本波動大小的量,樣本方差或樣本標準差越大,樣本數據的波動就越大。
方差和標準差是測算離散趨勢最重要、最常用的指標。方差是各變數值與其均值離差平方的平均數,它是測算數值型數據離散程度的最重要的方法。標準差為方差的算術平方根,用S表示。方差相應的計算公式為:
標準差與方差不同的是,標準差和變數的計算單位相同,比方差清楚,因此很多時候我們分析的時候更多的使用的是標準差。

最近進展

方差不僅僅表達了樣本偏離均值的程度,更是揭示了樣本內部彼此波動的程度,也可以理解為方差代表了樣本彼此波動的期望。當然,這個結論目前是在二階統計矩下成立。

相關詞條

熱門詞條

聯絡我們