基本思想
假設檢驗的基本思想是小機率
反證法思想。小機率思想是指小機率事件(P<0.01或P<0.05)在一次試驗中基本上不會發生。
反證法思想是先提出假設(檢驗假設H0),再用適當的統計方法確定假設成立的可能性大小,如可能性小,則認為假設不成立,若可能性大,則還不能認為假設不成立。
假設是否正確,要用從總體中抽出的樣本進行檢驗,與此有關的理論和方法,構成假設檢驗的內容。設
A是關於總體分布的一項命題,所有使命題
A成立的總體分布構成一個集合
h0,稱為原假設(常簡稱假設)。使命題
A不成立的所有
總體分布構成另一個集合
h1,稱為備擇假設。如果
h0可以通過有限個實參數來描述,則稱為參數假設,否則稱為非參數假設(見
非參數統計)。如果
h0(或
h1)只包含一個分布,則稱原假設(或備擇假設)為
簡單假設,否則為
複合假設。對一個假設
h0進行檢驗,就是要制定一個規則,使得有了樣本以後,根據這規則可以決定是接受它(承認命題
A正確),還是拒絕它(否認命題
A正確)。這樣,所有可能的樣本所組成的空間(稱
樣本空間)被劃分為兩部分HA和HR(HA的補集),當樣本
x∈HA時,接受假設
h0;當
x∈HR時,拒絕
h0。集合HR常稱為檢驗的
拒絕域,HA稱為接受域。因此選定一個檢驗法,也就是選定一個拒絕域,故常把檢驗法本身與拒絕域HR等同起來。
基本方法
顯著性檢驗 有時,根據一定的理論或經驗,認為某一假設
h0成立,例如,通常有理由認為特定的一群人的身高服從常態分配。當收集了一定數據後,可以評價實際數據與理論假設
h0之間的偏離,如果偏離達到了“顯著”的程度就拒絕
h0,這樣的檢驗方法稱為顯著性檢驗。偏離達到顯著的程度通常是指定一個很小的正數
α(如0.05,0.01),使當
h0正確時,它被拒絕的機率不超過
α,稱
α為
顯著性水平。這種假設檢驗問題的特點是不考慮備擇假設,考慮實驗數據與理論之間
擬合的程度如何,故此時又稱為
擬合優度檢驗。擬合優度檢驗是一類重要的顯著性檢驗。
K.皮爾森在1900年提出的Ⅹ檢驗是一個重要的擬合優度檢驗。設原假設
h0是:“總體分布等於某個已知的
分布函式F(
x)”。把(-∞,∞)分為若干個兩兩無公共點的
區間I1,
I2,…,
Ik,對任一個區間,以
vj記大小為
n的樣本
X1,
X2,…,
Xn中落在
Ij內的個數,稱為區間
Ij的觀測
頻數,另外,求出
Ij的理論頻數(對
j=1,2,…,
k都這樣做),再算出由下式定義的Ⅹ統計量,皮爾森證明了:若對
j=1,2,…,
k,則當
n→∞時,Ⅹ的極限分布是
自由度為
k-1的Ⅹ分布。於是在樣本大小
n相當大時,從Ⅹ分布表可查得Ⅹ分布的上
α分位數(見
機率分布)Ⅹ(
k-1)。由此即得檢驗水平為
α的拒絕域:{Ⅹ≥Ⅹα(
k-1)}。如果原假設
h 0為:總體服從分布族{
Fθ,
θ∈嘷},式中
θ為未知參數,嘷為
θ的所有可能取值的集合(稱
參數空間),也可得到類似的拒絕域,只要在計算理論
頻數vj時,將所包含的未知參數
θ用適當的
點估計代替,即可計算 Ⅹ統計量。但此時極限分布的自由度為
k-Л-1,式中Л為
θ中的獨立參數的個數。
柯爾莫哥洛夫檢驗(見
非參數統計)也是一個重要的擬合優度檢驗方法。
奈曼-皮爾森理論 J.奈曼與 E.S.皮爾森合作,從1928年開始,對假設檢驗提出了一項系統的理論。他們認為,在檢驗一個假設h0時可能犯兩類錯誤:
第一類錯誤是真實情況為
h0成立(即
θ∈嘷0),但判斷
h0不成立,犯了“以真為假”的錯誤。
第二類錯誤是
h0實際不成立(即
θ∈嘷1),但判斷它成立,犯了“以假為真”的錯誤(見表)。這裡嘷0,嘷1分別是使假設
h0成立或不成立的
θ的集合,顯然嘷=嘷0+嘷1。當
θ∈嘷0,樣本
X(即
X1,
X2,…,
Xn組成的向量)∈HR,其機率
Pθ(
X∈HR)就是犯第一類錯誤的機率
α;當
θ∈嘷1,樣本
X∈HA,其機率就是犯第二類錯誤的機率
β。通常人們不希望輕易拒絕
h0,例如工廠的產品一般是合格的,出廠進行
抽樣檢查時不希望輕易地被認為不合格,於是在限定犯第一類錯誤的機率不超過某個指定值
α(稱為檢驗水平)的條件下,尋求犯第二類錯誤的機率儘可能小的檢驗方法。為了描述檢驗的好壞,稱θ的函式
Pθ(
X∈HR)為檢驗的功效函式。例如上述
產品檢驗的例子中,所採用的檢驗可以是:當樣品中的廢品個數超過一定限度時,認為該批產品不合格,否則就認為合格。這個檢驗的功效函式有圖示的形狀,圖中的
p0、
p1、
α、
β根據需要選定。這種圖形清楚地描述了犯兩類錯誤的機率。
優良性準則 基於奈曼-皮爾森理論及
統計決策理論,可以提出一些準則,來比較為檢驗同一假設而提出的各種檢驗。較重要的準則有:
一致最大功效(UMP)準則 欲檢驗
h0:
θ∈嘷0,
h1:
θ∈嘷1;當給定檢驗水平
α後,在所有滿足的可供選擇的檢驗HR中,是否有一個最好的,亦即:是否存在拒絕域H,使得對於所有
θ∈嘷1及一切檢驗水平為
α的H皆有。若這樣的檢驗存在,則稱HR為檢驗水平
α的一致最大功效檢驗,簡稱UMP檢驗。奈曼與皮爾森在1933年提出了著名的奈曼-皮爾森引理。這是對
簡單假設尋求UMP檢驗的一個構造性的結果,即此時
似然比檢驗就是UMP檢驗。對某些
複合假設也找到了 UMP檢驗,但並不是所有情況都存在 UMP檢驗。因此有必要在對檢驗作某些限制下尋找最大功效檢驗或建立另外一些優良性準則。
無偏性準則 要求檢驗在備擇假設
h1成立時作出正確判斷的機率不小於檢驗水平
α,這就是說在
h0不成立時拒絕
h0的機率要不小於在
h0成立時拒絕
h0的機率,這種性質稱為無偏性,具有這種性質的檢驗稱為無偏檢驗。顯然,如果在無偏檢驗中存在一致最大功效檢驗就稱為一致最大功效無偏檢驗(簡稱UMPU檢驗)。UMP檢驗不存在時,仍可能有UMPU檢驗存在。例如正態總體中
方差未知時,為檢驗均值
μ=
μ0的
t檢驗就是UMPU檢驗,但不是UMP檢驗。
因為假設檢驗在統計決策理論中是一種特殊的統計決策問題,兩類錯誤影響可用特殊損失來表示。例如選取特殊的
損失函式,使正確判斷時損失為零,錯判時損失為1。它就可歸結為犯第一類錯誤的機率
α和犯第二類錯誤的機率
β。這同用功效函式
Pθ(
X∈HR)來敘述是一致的。因此把統計決策理論中容許性、同變性、
貝葉斯決策、最小化最大等概念引進來,而得到容許檢驗、同變檢驗、貝葉斯檢驗和最小化最大檢驗。在同變檢驗限制下,又可以建立一致最大功效同變檢驗的概念。這些準則又可作為假設檢驗的優良性準則,從而擴大了假設檢驗的內容。
尋求在一定準則下的最優檢驗是很困難的,何況這種最優檢驗有時並不存在。於是提出了若干依據直觀的
推理法,其中最重要的是似然比法。
似然比檢驗運用與最大似然估計(見
點估計)類似的原理,可得到似然比檢驗法。設樣本
X的分布密度即
似然函式為
l(尣,
θ),
θ∈嘷,欲檢驗的假設為
h0:
θ∈嘷0,稱為似然比。顯然0≤(尣)≤1,當(尣)太小時就拒絕
h0,否則接受
h0,其臨界值
λ0由檢驗水平
α 和(尣)在
h0成立時的分布確定,即。然而,在一般情況下,尋求(尣的精確分布並不容易。1938年S.S.威爾克斯證明了:在相當廣泛的條件下,-2l
n(尣)是漸近Ⅹ分布的, 這就為大樣本的似然比檢驗提供了實行的可能。
用似然比法導出的重要檢驗有:
U檢驗 若總體遵從常態分配
N(
μ,
σ),其中
σ已知,
X=(
X1,
X2,…,
Xn)是從總體中抽取的簡單隨機樣本,記,則遵從標準常態分配
N(0,1),於是可考慮對μ的以下幾種假設的檢驗,其中
μ0是給定的常數,
α為檢驗的水平,
uα為標準常態分配的上
α分位數。上述檢驗稱為
U 檢驗。
t檢驗 若總體服從常態分配
N(
μ,
σ),但
σ未知,記,,則
t=遵從自由度為
n-1的
t分布,可對μ有以下的水平為
α的檢驗,其中
tα為自由度為
n-1的
t分布的上
α分位數。這些檢驗稱為
t檢驗。
F檢驗 若
X=(
X1,
X2,…,)及
Y=(
Y1,
Y2,…,)分別為來自正態總體
N(
μ1,
σ娝)及
N(
μ2,
σ娤)的簡單隨機樣本,記 ,,,,則遵從自由度為
n1-1,
n2-1的
F分布,對比較
σ娝與
σ娤的假設有以下的水平為
α的檢驗,其中
Fα為自由度為(
n1-1,
n2-1)的
F分布的上
α分位數。這些檢驗稱為
F檢驗,在方差分析中有廣泛的套用。
參考書目 E.L.Lehmann,Testing Statistical Hypothesis,John Wiley & Sons, New
基本步驟
1、提出檢驗假設又稱無效假設,符號是H0;備擇假設的符號是H1。
H0:樣本與總體或樣本與樣本間的差異是由抽樣誤差引起的;
H1:樣本與總體或樣本與樣本間存在本質差異;
預先設定的檢驗水準為0.05;當檢驗假設為真,但被錯誤地拒絕的機率,記作α,通常取α=0.05或α=0.01。
2、選定統計方法,由樣本觀察值按相應的公式計算出統計量的大小,如X2值、t值等。根據資料的類型和特點,可分別選用Z檢驗,T檢驗,
秩和檢驗和
卡方檢驗等。
3、根據統計量的大小及其分布確定檢驗假設成立的可能性P的大小並判斷結果。若P>α,結論為按α所取水準不顯著,不拒絕H0,即認為差別很可能是由於抽樣誤差造成的,在統計上不成立;如果P≤α,結論為按所取α水準顯著,拒絕H0,接受H1,則認為此差別不大可能僅由抽樣誤差所致,很可能是實驗因素不同造成的,故在統計上成立。P值的大小一般可通過查閱相應的界值表得到。
教學中的做法:
1.根據實際情況提出原假設和備擇假設;
2.根據假設的特徵,選擇合適的檢驗統計量;
3.根據樣本觀察值,計算檢驗統計量的觀察值(obs);
4.選擇許容顯著性水平,並根據相應的統計量的統計分布表查出相應的臨界值(ctrit);
5.根據檢驗統計量觀察值的位置決定原假設取捨。
意義
假設檢驗是
抽樣推斷中的一項重要內容。它是根據原資料作出一個總體指標是否等於某一個數值,某一
隨機變數是否服從某種
機率分布的假設,然後利用樣本資料採用一定的統計方法計算出有關檢驗的統計量,依據一定的機率原則,以較小的風險來判斷估計數值與總體數值(或者估計分布與實際分布)是否存在顯著差異,是否應當接受原假設選擇的一種檢驗方法。
用樣本指標估計總體指標,其結論有的完全可靠,有的只有不同程度的可靠性,需要進一步加以檢驗和證實。通過檢驗,對樣本指標與假設的總體指標之間是否存在差別作出判斷,是否接受原假設。這裡必須明確,進行檢驗的目的不是懷疑樣本指標本身是否計算正確,而是為了分析樣本指標和總體指標之間是否存在顯著差異。從這個意義上,假設檢驗又稱為顯著性檢驗。
進行假設檢驗,先要對假設進行陳述。通過下例加以說明。
例如,設某工廠製造某種產品的某種精度服從
平均數為方差的
常態分配,據過去的數據,已知平均數為75,方差為100。若經過技術革新,改進了製造方法,出現了平均數大於75,方差沒有變更,但仍存在平均數不超過75的可能性。試陳述為統計假設。
根據上述情況,可有兩種假設,(1) 平均數不超過75,(2)平均數大於75,即如果我們把(1)作為原假設,即被檢驗的假設,稱作零假設,記作H0,如果其他假設相對於零假設來說,是約定的、補充的假設,則就是備擇的,故稱為備擇假設或對立假設,記作H1。
還須指出,哪個是零假設,哪個是備擇假設,是無關緊要的。我們關心的問題,是要探索哪一個假設被接受的問題。被接受的假設是要作為推理的基礎。在實際問題中,一般要考慮事情發生的邏輯順序和關心的事件,來設立零假設和備擇假設。
在作出了統計假設之後,就要採用適當的方法來決定是否應該接受零假設。由於運用統計方法所遇到的問題不同,因而解決問題的方法也不盡相同。但其解決方法的基本思想卻是一致的,即都是“機率反證法”思想,即:
(1)為了檢驗一個零假設(即虛擬假設)是否成立, 先假定它是成立的,然後看接受這個假設之後,是否會導致不合理結果。如果結果是合理的,就接受它;如不合理,則否定原假設。
(2)所謂導致不合理結果,就是看是否在一次觀察中, 出現小機率事件。通常把出現小機率事件的機率記為0,即顯著性水平。 它在次數
函式圖形中是
曲線兩端或一端的面積。因此,從統計檢驗來說,就涉及到
雙側檢驗和單側檢驗問題。在實踐中採用何類檢驗是由實際問題的性質來決定的。一般可以這樣考慮:
①
雙側檢驗。如果檢驗的目的是檢驗抽樣的樣本統計量與假設參數的差數是否過大(無論是正方向還是負方向),就把風險平分在右側和左側。比如顯著性水平為0.05,即機率曲線左右兩側各占,即0.025。
②單側檢驗。這種檢驗只注意估計值是否偏高或偏低。如只注意偏低,則臨界值在左側,稱左側檢驗;如只注意偏高,則臨界值在右側,稱右側檢驗。
對總體的參數的檢量,是通過由樣本計算的統計量來實現的。所以檢驗統計量起著決策者的作用。
統計推斷是由樣本的信息來推測母體性能的一種方法,它又可以分為兩類問題,即
參數估計和
假設檢驗。實際生產和科學實驗中,大量的問題是在獲得一批數據後,要對
母體的某一參數進行估計和檢驗。
例如,我們對45鋼的
斷裂韌性作了測定,取得了一批數據,然後要求45鋼斷裂韌性的平均值,或要求45鋼斷裂韌性的單側下限值,或要求45鋼斷裂韌性的分散度(即
離散係數),這就是
參數估計的問題。
又如,經過長期的積累,知道了某材料的
斷裂韌性的平均值和標準差,經改進熱處理後,又測得一批數據,試問新工藝與老工藝相比是否有顯著差異,這就是
假設檢驗的問題。
這樣可以看出,參數估計是假設檢驗的第一步,沒有參數估計,也就無法完成假設檢驗。
套用
在雷達檢測中,目標是產生假設的源,它可使用兩個假設:H1和H0,分別表示目標存在(H1)和不存在(H0)。這是二元簡單假設檢驗。二元數字通信問題也是簡單假設檢驗。如果假設中含有目標未知參量,則是複合假設檢驗。m元通信問題也是複合假設檢驗。如果未知參量是隨機變化的,則是隨機參量信號的假設檢驗。
通信系統和雷達系統常用的最佳準則,是最小錯誤機率準則,即最大後驗機率準則。以雷達檢測為例:目標是源,它可使用的兩個假設是H1和H0。接收端收到樣本X(雷達回波)後,判定H1為真(目標存在),或判定H0為真(目標不存在機率可分別表示為p(H1/x)和p(H0/x),稱為後驗機率。最大後驗機率準則的判決規則是,若
則判定H1為真(選擇H1);否則判定H0為真。
注意的問題
1、做假設檢驗之前,應注意資料本身是否有可比性。
2、當差別有
統計學意義時應注意這樣的差別在實際套用中有無意義。
3、根據資料類型和特點選用正確的假設檢驗方法。
4、根據專業及經驗確定是選用單側檢驗還是
雙側檢驗。
5、當檢驗結果為拒絕
無效假設時,應注意有發生I類錯誤的可能性,即錯誤地拒絕了本身成立的H0,發生這種錯誤的可能性預先是知道的,即檢驗水準那么大;當檢驗結果為不拒絕無效假設時,應注意有發生II類錯誤的可能性,即仍有可能錯誤地接受了本身就不成立的H0,發生這種錯誤的可能性預先是不知道的,但與樣本含量和I類錯誤的大小有關係。
6、判斷結論時不能絕對化,應注意無論接受或拒絕檢驗假設,都有判斷錯誤的可能性。
7、報告結論時是應注意說明所用的統計量,檢驗的單雙側及P值的確切範圍。