歷史發展
常態分配概念是由德國的數學家和天文學家Moivre於1733年首次提出的,但由於德國數學家Gauss率先將其套用於天文學研究,故常態分配又叫高斯分布,高斯這項工作對後世的影響極大,他使常態分配同時有了“高斯分布”的名稱,後世之所以多將最小二乘法的發明權歸之於他,也是出於這一工作。但現今德國10馬克的印有高斯頭像的鈔票,其上還印有常態分配的
密度曲線。這傳達了一種想法:在高斯的一切科學貢獻中,其對
人類文明影響最大者,就是這一項。在高斯剛作出這個發現之初,也許人們還只能從其理論的簡化上來評價其優越性,其全部影響還不能充分看出來。這要到20世紀正態小樣本理論充分發展起來以後。
拉普拉斯很快得知高斯的工作,並馬上將其與他發現的中心極限定理聯繫起來,為此,他在即將發表的一篇文章(發表於1810年)上加上了一點補充,指出如若誤差可看成許多量的疊加,根據他的中心極限定理,誤差理應有
高斯分布。這是歷史上第一次提到所謂“元誤差學說”——誤差是由大量的、由種種原因產生的元誤差疊加而成。後來到1837年,海根(G.Hagen)在一篇論文中正式提出了這個學說。
其實,他提出的形式有相當大的局限性:海根把誤差構想成個數很多的、獨立同分布的“元誤差” 之和,每隻取兩值,其機率都是1/2,由此出發,按狄莫佛的中心極限定理,立即就得出誤差(近似地)服從常態分配。拉普拉斯所指出的這一點有重大的意義,在於他給誤差的正態理論一個更自然合理、更令人信服的解釋。因為,高斯的說法有一點循環論證的氣味:由於算術平均是優良的,推出誤差必須服從常態分配;反過來,由後一結論又推出算術平均及最小二乘估計的優良性,故必須
認定這二者之一(算術平均的優良性,誤差的正態性) 為出發點。但算術平均到底並沒有自行成立的理由,以它作為理論中一個預設的出發點,終覺有其不足之處。拉普拉斯的理論把這斷裂的一環連線起來,使之成為一個和諧的整體,實有著極重大的意義。
定理
由於一般的正態總體其圖像不一定關於y
軸對稱,對於任一正態總體,其取值小於x的機率。只要會用它求正態總體在某個特定區間的機率即可。
為了便於描述和套用,常將正態變數作數據轉換。將一般常態分配轉化成標準常態分配。
服從標準常態分配,通過查標準常態分配表就可以直接計算出原常態分配的機率值。故該變換被稱為標準化變換。(標準常態分配表:標準常態分配表中列出了標準正態曲線下從-∞到X(當前值)範圍內的面積比例。)
定義
一維常態分配
則這個
隨機變數就稱為
正態隨機變數,正態隨機變數服從的分布就稱為
常態分配,記作 ,讀作
服從
,或
服從常態分配。
μ維隨機
向量具有類似的機率規律時,稱此隨機向量遵從多維常態分配。多元常態分配有很好的性質,例如,多元常態分配的邊緣分布仍為常態分配,它經任何
線性變換得到的隨機向量仍為多維常態分配,特別它的線性組合為一元常態分配。
本詞條的常態分配是一維常態分配,此外多維常態分配參見“
二維常態分配”。
標準常態分配
性質
常態分配的一些性質:
U與V兩者是相互獨立的。(要求X與Y的方差相等)。
它們的積XY服從機率密度函式為p的分布
其中
是修正貝塞爾函式(modified Bessel function)
(4)如果
為獨立標準常態隨機變數,那么
服從自由度為
n的
卡方分布。
分布曲線
圖形特徵
集中性:正態曲線的高峰位於正中央,即
均數所在的位置。
對稱性:正態曲線以均數為中心,左右對稱,曲線兩端永遠不與
橫軸相交。
均勻變動性:正態曲線由均數所在處開始,分別向左右兩側逐漸均勻下降。
曲線與橫軸間的面積總等於1,相當於
機率密度函式的函式從正無窮到負無窮積分的機率為1。即頻率的總和為100%。
關於μ對稱,並在μ處取最大值,在正(負)無窮遠處取值為0,在μ±σ處有
拐點,形狀呈現中間高兩邊低,常態分配的機率密度函式
曲線呈鐘形,因此人們又經常稱之為
鐘形曲線。參數含義
常態分配有兩個參數,即期望(均數)μ和標準差σ,σ2為方差。
常態分配具有兩個參數μ和σ^2的
連續型隨機變數的分布,第一參數μ是服從常態分配的隨機變數的
均值,第二個參數σ^2是此隨機變數的
方差,所以常態分配記作N(μ,σ
2)。
μ是常態分配的位置參數,描述常態分配的
集中趨勢位置。機率規律為取與μ鄰近的值的機率大,而取離μ越遠的值的機率越小。常態分配以X=μ為
對稱軸,左右完全對稱。常態分配的期望、
均數、
中位數、眾數相同,均等於μ。
σ描述常態分配資料數據分布的離散程度,σ越大,數據分布越分散,σ越小,數據分布越集中。也稱為是常態分配的形狀參數,σ越大,曲線越扁平,反之,σ越小,曲線越瘦高。
面積分布
1、實際工作中,正態曲線下橫軸上一定區間的面積反映該區間的例數占總例數的百分比,或變數值落在該區間的機率(機率分布)。不同 範圍內正態曲線下的面積可用公式計算。
2、正態曲線下,
橫軸區間(μ-σ,μ+σ)內的面積為68.268949%。
P{|X-μ|<σ}=2Φ(1)-1=0.6826
橫軸區間(μ-1.96σ,μ+1.96σ)內的面積為95.449974%。
P{|X-μ|<2σ}=2Φ(2)-1=0.9544
橫軸區間(μ-2.58σ,μ+2.58σ)內的面積為99.730020%。
P{|X-μ|<3σ}=2Φ(3)-1=0.9974
由於
“小機率事件”和
假設檢驗的基本思想 “小機率事件”通常指發生的機率小於5%的事件,認為在一次試驗中該事件是幾乎不可能發生的。由此可見X落在(μ-3σ,μ+3σ)以外的機率小於千分之三,在實際問題中常認為相應的事件是不會發生的,基本上可以把區間(μ-3σ,μ+3σ)看作是隨機變數X實際可能的取值區間,這稱之為常態分配的“3σ”原則。
研究過程
概念及特徵:
一、常態分配的概念
由一般分布的頻數表資料所繪製的直方圖,圖⑴可以看出,高峰位於中部,左右兩側大致對稱。我們
構想,如果觀察例數逐漸增多,組段不斷分細,直方圖頂端的連線就會逐漸形成一條高峰位於中央(均數所在處),兩側逐漸降低且左右對稱,不與橫軸相交的光滑曲線圖⑶。這條曲線稱為
頻數曲線或
頻率曲線,近似於數學上的常態分配(normal distribution)。由於頻率的總和為100%或1,故該曲線下
橫軸上的面積為100%或1。
為了套用方便,常對常態分配變數X作變數變換。
該變換使原來的常態分配
轉化為
標準常態分配(standard normal distribution),亦稱
u分布。
u被稱為標準
正態變數或標準正態
離差(standard normal deviate)。
實際工作中,常需要了解正態曲線下
橫軸上某一區間的面積占總面積的
百分數,以便估計該區間的例數占總例數的百分數(
頻數分布)或觀察值落在該區間的機率。正態曲線下一定區間的面積可以通過附表1求得。對於正態或近似常態分配的資料,已知
均數和標準差,就可對其頻數分布作出概約估計。
查附表1應注意:①表中曲線下面積為-∞到u的左側累計面積;②當已知μ、σ和X時先按式u=(X-μ)/σ求得u值,再查表,當μ、σ未知且樣本含量n足夠大時,可用樣本均數X1和標準差S分別代替μ和σ,按u=(X-X1)/S式求得u值,再查表;③曲線下對稱於0的區間面積相等,如區間(-∞,-1.96)與區間(1.96,∞)的面積相等,④曲線下橫軸上的總面積為100%或1。
圖2 正態曲線與標準正態曲線的面積分布
常態分配的套用某些醫學現象,如同質群體的身高、紅細胞數、血紅蛋白量、膽固醇等,以及實驗中的隨機誤差,呈現為正態或近似常態分配;有些資料雖為偏態分布,但經數據變換後可成為正態或近似常態分配,故可按常態分配規律處理。
一般常態分配與標準常態分配的區別與聯繫
常態分配也叫常態分布,是連續隨機變數機率分布的一種,自然界、人類社會、心理和教育中大量現象均按正態形式分布,例如能力的高低,學生成績的好壞等都屬於常態分配。它隨隨機變數的平均數、標準差的大小與單位不同而有不同的分布形態。標準常態分配是常態分配的一種,其平均數和標準差都是固定的,平均數為0,標準差為1。
曲線套用
綜述
1、估計頻數分布 一個服從常態分配的變數只要知道其均數與標準差就可根據公式即可估計任意取值範圍內頻數比例。
2、制定參考值範圍
(1)常態分配法 適用於服從正態(或近似正態)分布指標以及可以通過轉換後服從常態分配的指標。
(2)百分位數法 常用於偏態分布的指標。表3-1中兩種方法的單雙側界值都應熟練掌握。
3、質量控制:為了控制實驗中的測量(或實驗)誤差,常以 作為上、下警戒值,以 作為上、下控制值。這樣做的依據是:正常情況下測量(或實驗)誤差服從常態分配。
/4、常態分配是許多統計方法的理論基礎。檢驗、
方差分析、相關和
回歸分析等多種
統計方法均要求分析的指標服從常態分配。許多統計方法雖然不要求分析指標服從常態分配,但相應的
統計量在大樣本時近似常態分配,因而大樣本時這些
統計推斷方法也是以常態分配為理論基礎的。
頻數分布
例1.10 某地1993年抽樣調查了100名18歲男大學生身高(cm),其均數=172.70cm,標準差s=4.01cm,①估計該地18歲男大學生身高在168cm以下者占該地18歲男大學生總數的百分數;②分別求X+-1s、X+-1.96s、X+-2.58s範圍內18歲男大學生占該地18歲男大學生總數的實際百分數,並與理論百分數比較。
本例,μ、σ未知但樣本含量
n較大,按式(3.1)用樣本均數X和
標準差S分別代替μ和σ,求得
u值,
u=(168-172.70)/4.01=-1.17。查附表標準正態曲線下的面積,在表的左側找到-1.1,表的上方找到0.07,兩者相交處為0.1210=12.10%。該地18歲男大學生身高在168cm以下者,約占總數12.10%。其它計算結果見表3。
表3 100名18歲男大學生身高的實際分布與理論分布
分布 x+-s
| 身高範圍(cm)
| 實際分布 人數
| 實際分布 百分數(%)
| 理論分布(%)
|
X+-1s
| 168.69~176.71
| 67
| 67.00
| 68.27
|
X +-1.96s
| 164.84~180.56
| 95
| 95.00
| 95.00
|
X+-2.58s
| 162.35~183.05
| 99
| 99.00
| 99.00
|
綜合素質研究
教育統計學統計規律表明,學生的智力水平,包括學習能力,實際動手能力等呈常態分配。因而正常的考試成績分布應基本服從常態分配。考試分析要求繪製出學生成績分布的直方圖,以“中間高、兩頭低”來衡量成績符合常態分配的程度。其評價標準認為:考生成績分布情況直方圖,基本呈正態曲線狀,屬於好,如果略呈正(負)態狀,屬於中等,如果呈嚴重偏態或無規律,就是差的。
從機率統計規律看,“正常的考試成績分布應基本服從常態分配”是正確的。但是必須考慮人與物的本質不同,以及教育的有所作為可以使“隨機”受到干預,用曲線或直方圖的形狀來評價考試成績就有失偏頗。許多教育專家(如上海顧泠沅、美國布魯姆等)已經通過實踐論證,教育是可以大有作為的,可以做到大多數學生及格,而且多數學生可以得高分,考試成績曲線是偏常態分配的。但是長期受到“中間高、兩頭低”標準的影響,限制了教師的作為,抑制了多數學生能夠學好的信心。這是很大的誤會。通常正態曲線有一條對稱軸。當某個分數(或分數段)的考生人數最多時,對應曲線的最高點,是曲線的頂點。該
分數值在
橫軸上的對應點與頂點連線的
線段就是該正態曲線的
對稱軸。考生人數最多的值是峰值。我們注意到,成績曲線或直方圖實際上很少對稱的,稱之為峰線更合適。
醫學參考值
某些醫學現象,如同質群體的身高、紅細胞數、血紅蛋白量,以及實驗中的
隨機誤差,呈現為正態或近似常態分配;有些指標(變數)雖服從
偏態分布,但經數據轉換後的新變數可服從正態或近似常態分配,可按常態分配規律處理。其中經對數轉換後服從常態分配的指標,被稱為服從對數常態分配。
醫學參考值範圍亦稱醫學正常值範圍。它是指所謂“正常人”的解剖、生理、生化等指標的波動範圍。制定正常值範圍時,首先要確定一批樣本含量足夠大的“正常人”,所謂“正常人”不是指“健康人”,而是指排除了影響所研究指標的疾病和有關因素的同質人群;其次需根據研究目的和使用要求選定適當的百分界值,如80%,90%,95%和99%,常用95%;根據指標的實際用途確定單側或雙側界值,如
白細胞計數過高過低皆屬不正常須確定雙側界值,又如肝功中轉氨酶過高屬不正常須確定單側上界,肺活量過低屬不正常須確定單側下界。另外,還要根據資料的分布特點,選用恰當的計算方法。常用方法有:
(1)常態分配法:適用於正態或近似常態分配的資料。
雙側界值:X+-u(u)S單側上界:X+u(u)S,或單側下界:X-u(u)S
(2)對數常態分配法:適用於對數常態分配資料。
雙側界值:lg-1[X(lgx)+-u(u)S(lgx)];單側上界:lg-1[X(lgx)+u(u)S(lgx)],或單側下界:lg-1[X(lgx)-u(u)S(lgx)]。
常用u值可根據要求由表4查出。
(3)百分位數法:常用於偏態分布資料以及資料中一端或兩端無確切數值的資料。
雙側界值:P2.5和P97.5;單側上界:P95,或單側下界:P5。
表4常用u值表
參考值範圍(%)
| 單側
| 雙側
|
80
| 0.842
| 1.282
|
90
| 1.282
| 1.645
|
95
| 1.645
| 1.960
|
99
| 2.326
| 2.576
|
統計的理論基礎:
如t分布、F分布、分布都是在常態分配的基礎上推導出來的,u檢驗也是以常態分配為基礎的。此外,t分布、
二項分布、Poisson分布的極限為常態分配,在一定條件下,可以按常態分配原理來處理。
機率論中最重要的分布
常態分配有極其廣泛的實際背景,生產與科學實驗中很多隨機變數的機率分布都可以近似地用常態分配來描述。例如,在生產條件不變的情況下,產品的強力、
抗壓強度、口徑、長度等指標;同一種生物體的身長、體重等指標;同一種種子的重量;測量同一物體的誤差;彈著點沿某一方向的偏差;某個地區的年降水量;以及理想氣體分子的速度分量,等等。一般來說,如果一個量是由許多微小的獨立隨機因素影響的結果,那么就可以認為這個量具有常態分配(見
中心極限定理)。從理論上看,常態分配具有很多良好的性質 ,許多
機率分布可以用它來近似;還有一些常用的機率分布是由它直接導出的,例如
對數常態分配、
t分布、F分布等。
主要內涵
在聯繫自然、社會和思維的實踐背景下,我們以常態分配的本質為基礎,以常態分配曲線及面積分布圖為表征(以後談及常態分配及常態分配論就要浮現此圖),進行抽象與提升,抓住其中的主要哲學內涵,歸納常態分配論(正態哲學)的主要內涵如下:
整體論
常態分配啟示我們,要用整體的觀點來看事物。“系統的整體觀念或總體觀念是系統概念的精髓。” 常態分配曲線及面積分布圖由
基區、負區、正區三個區組成,各區比重不一樣。用整體來看事物才能看清楚事物的本來面貌,才能得出事物的根本特性。不能只見樹木不見森林,也不能以偏概全。此外整體大於部分之和,在分析各部分、各層次的基礎上,還要從整體看事物,這是因為整體有不同於各部分的特點。用整體觀來看世界,就是要立足在基區,放眼負區和正區。要看到主要方面,還要看到次要方面,既要看到積極的方面還要看到事物消極的一面,看到事物前進的一面還要看到落後的一面。片面看事物必然看到的是
偏態或者是變態的事物,不是真實的事物本身。
重點論
常態分配曲線及面積分布圖非常清晰的展示了重點,那就是基區占68.27%,是主體,要重點抓,此外95%,99%則展示了正態的全面性。認識世界和改造世界一定要住住重點,因為重點就是事物的主要矛盾,它對事物的發展起主要的、支配性的作用。抓住了重點才能一舉其綱,萬目皆張。事物和現象紛繁複雜,在千頭萬緒中不抓住主要矛盾,就會陷入無限瑣碎之中。由於我們時間和精力的相對有限性,出於效率的追求,我們更應該抓住重點。在常態分配中,基區占了主體和重點。如果我們結合
20/80法則,我們更可以大膽的把正區也可以看做是重點。
發展論
聯繫和發展是事物發展變化的基本規律。任何事物都有其產生、發展和滅亡的歷史,如果我們把常態分配看做是任何一個系統或者事物的發展過程的話,我們明顯的看到這個過程經歷著從負區到基區再到正區的過程。無論是自然、社會還是人類的思維都明顯的遵循這這樣一個過程。準確的把握事物或者事件所處的歷史過程和階段極大的有助於掌握我們對事物、事件的特徵和性質,是我們分析問題,採取對策和解決問題的重要基礎和依據。發展的階段不同,性質和特徵也不同,分析和解決問題的辦法要與此相適應,這就是
具體問題具體分析,也是解放思想、實事求是、與時俱樂進的精髓。正態發展的特點還啟示我們,事物發展大都是漸進的和累積的,走漸進發展的道路是事物發展的常態。例如,遺傳是常態,變異是非常態。
總之,常態分配論是科學的世界觀,也是科學的方法論,是我們認識和改造世界的最重要和最根本的工具之一,對我們的理論和實踐有重要的指導意義。以正態哲學認識世界,能更好的認識和把握世界的本質和規律,以正態哲學來改造世界,能更好的在尊重和利用客觀規律,更有效的改造世界。
弗朗西斯弗朗西斯·高爾頓 [Francis Galton 1822.02.16-1911.01.17],英國探險家、優生學家、心理學家,差異心理學之父,也是心理測量學上生理計量法的創始人。
高而頓對心理學的貢獻,大概可以歸納未差異心理學、心理測量的量化和實驗心理學三方面:
心理學研究之量化,始自高爾頓。他發明了許多感官和運動的測試,並以數量代表所測得的心理特質之差異。他認為人的所有特質,不管是物質的還是精神的,最終都可以定量敘述,這是實現人類科學的必要條件,故最先套用統計法處理心理學研究資料,重視數據的平均數與高中差數。他收集了大量資料證明人的心理特質在人口中的分布如同身高、體重那樣符合
常態分配曲線。他在論及遺傳對個體差異的影響時,為
相關係數的概念作了初步提示。如他研究了“居間親”和其成年子女的身高關係,發現居間親和其子女的身高有正相關,即父母的身材較高,其子女的身材也有較高的趨勢。反之,父母的身材較低,其子女也有較矮的趨勢。同時發現子女的身高常與其父母略有差別,而呈現“回中”趨勢,即離開其父母的身高數,而回到一般人身高的
平均數。
智力、能力
理察·赫恩斯坦 [(Richard J. Herrnstein 1930.05.20-1994.09.13),美國比較心理學家]和默瑞(Charles Murray)合著《正態曲線》一書而聞名,在該書中他們指出人們的智力呈
常態分配。智力主要是遺傳的並因種族的不同而不同,猶太人、東亞人的智商最高,其次為白人,表現最差的是黑人、西班牙裔人。他們檢討了數十年來心理計量學與政策學的研究成果,發現美國社會輕忽了智商的影響愈變愈大的趨勢。他們力圖證明,美國現行的偏向於以非洲裔和南美裔為主的低收入階層的社會政策,如職業培訓、大學教育等,完全是在浪費資源。他們利用應募入伍者的測試結果證明,黑人青年的智力低於白人和
黃種人;而且,這些人的智力已經定型,對他們進行培訓收效甚微。因此,政府應該放棄對這部分人的教育,把錢用於包括所有種族在內的啟蒙教育,因為孩子的智力尚未定型,開發潛力大。由於此書涉及黑人的智力問題,一經出版便受到來自四面八方的圍攻。