發展簡況
1866年,揭示了遺傳的基本規律,這是最早運用
數理統計於生物實驗的一個成功的範例(見)。1889年,在《自然的遺傳》一書中,通過對人體身高的研究指出,
子代的身高不僅與親代的身高相關,而且有向
平均值“回歸”的趨勢,由此提出了“回歸”和“相關”的概念和算法,從而奠定了生物統計的基礎。
高爾頓的學生K.皮爾遜進一步把統計學套用於生物研究,提出了實際測定數與理論預期數之間的
偏離度指數即卡
方差()的概念和算法,這在屬性的統計分析上起了重要作用。1899年,他創辦了《生物統計》雜誌,還建立了一所
數理統計學校。他的學生W.S.
戈塞特對樣本
標準差作了許多研究,並於1908年以“Student”的筆名將t-檢驗法發表於《生物統計》雜誌上。此後,t-檢驗法就成了生物統計學中的基本工具之一。英國數學家指出,只注意事後的數據分析是不夠的,事先必須作好實驗設計。他使實驗設計成了生物統計的一個分支。他的學生G.W.斯奈迪格把變異來源不同的均方比值稱為
F值,並指出當值大於理論上 5%機率水準的值時,該項變異來源的必然性效應就從
偶然性變數中分析出來了,這就是“
方差分析法”。上述這些方法對於農業科學、生物學特別是的研究,起了重大的推動作用,20世紀20年代以來,各種數理統計方法陸續創立,它們在實驗室、田間、飼養和臨床實驗中得到廣泛套用並日益擴大到整個工業界。70年代,隨著計算機的普及,使本來由於計算量過大而不得不放棄的
統計方法又獲得了新的生命力,套用更為廣泛,並在現代科技中占有十分重要的地位。
參數
一個觀測對象(如一個7歲男孩)的某些性狀(如身高等)的量度結果,稱為一個個體。來源相同的各個個體(如各個 7歲男孩的身高值)之間的差異稱為個體變異。總體是通過統計所欲了解的對象,其中的個體可以是有限的也可以是無限的。觀測數據可以是計數的(離散的)(如單位面積中的昆蟲數),也可以是計量的(如身高、體重、血壓、
肺活量等)。總體最基本的參數有兩類:表示水平的稱為位置參數或型值,如
平均數、
中位數、率等;反映個體差異大小的稱為
分散度參數,如
標準差、
極差等。
總體參數是一個客觀存在但通常卻又是未知的常數。只能用樣本去估計它。這樣做自然會有誤差。
樣本平均數,即
[1432-01]其中表示第 個個體的
觀測值;為樣本中的個體數,稱為樣本大小;∑為
求和號,∑表示的合計凡是從樣本計算出來的數值都稱為
統計量,它是對相應的總體值的一種估計例如是總體
均數的一種估計。若總體均數正好等於,則稱為 的
無偏估計,意謂用估計雖有誤差但平均來說是無偏的。此時又稱 為 的期望,記作[1432-02]。
抽樣
為了估計總體的參數(如均數、率、標準差等)而從其中抽出一部分個體組成供分析的樣本稱為抽樣。
抽樣方法應能防止主、客觀因素造成偏性(即
系統誤差),保證樣本對總體的代表性。
簡單隨機抽樣是以抽籤或相當於抽籤的方式從總體中抽取個體組成樣本。其要點是:總體中每個個體被抽中的機會必須均等。系統抽樣是將總體劃分為時間或
空間順序相等的個部分,再機械地取每一部分的第個個體組成樣本,是一次隨機抽定的。例如,欲抽查十分之一學生的成績,可從0到9這10個整數中隨機地抽定一個數,假設為3,則凡學生證號最後一個數是 3者均為被抽中的對象。
分層抽樣是事先將總體分為不同的層次(如地區、年齡、性別等),再分別從各層次中按適當
比例抽樣。用此法可以從層間差異較大的總體中獲取代表性較好的樣本。
整群抽樣是以群體為單位進行抽樣,凡抽中的單位就全面調查。此法便於實施,但
抽樣誤差較大,一般不可沿用基於
簡單隨機抽樣的普通公式計算抽樣誤差。此外,還可以分階段地、混合地使用上述方法。如兩
階段抽樣、
多階段抽樣、分層整群抽樣、多階段等
機率抽樣等。
用
樣本統計量去估計
總體參數難免會有抽樣誤差,它的大小與個體變異(
標準差)的大小成正比;與樣本含量的平方根成反比。表示抽樣誤差大小的統計指標是標準誤 [1434-01]或代以
統計量[1434-02] (7)相當於將每一個樣本(構想有許多來自同一總體的樣本)的均數(或率)看成為一個個體時的標準差,它反映了取自同一總體的不同樣本之間的差異(7)式適用於
簡單隨機抽樣和系統抽樣。其他幾種
抽樣方法的算式較繁。
差異的
顯著性 兩個或兩組數據相比,總會有或大或小的差異。問題是這種差異僅僅是
抽樣誤差的反映呢還是由於它們來自不同的總體?即是否存在著實質性差異?用統計學的術語來說,就是要判斷數據間的差異是否“顯著”。用
統計方法來推斷差異的性質稱為差異的
顯著性檢驗。顯著性檢驗的方法很多,基本步驟大體如下:先假定數據均來自同一總體,即假設要比較的數據並無實質性差異,稱為
零假設;根據原始數據計算因抽樣誤差而出現此種程度差異的
機率;若甚小,則根據“
小機率事件實際上不大可能發生”這一原理否定零假設,認為“差異顯著”,即這種差異從統計學的角度來看是有意義的;反之,若不算小,就不否定零假設,認為“差異不顯著”,即不能排除
抽樣誤差範圍內的波動。正確地運用顯著性檢驗,可使實驗或調查的結論建立在更科學、穩妥的基礎之上,避免簡單化和絕對化。
顯著性水準
機率的大小只能相對而言,在生物學數據的差異
顯著性檢驗中,已習慣用=0.05為小機率的上限。有時,為嚴格起見,也規定=0.01。稱為顯著性水準,它是當
零假設正確時卻錯誤地將其否定(第Ⅰ類錯誤)的機率。但也不是 定得愈小愈好。倘若零假設是不對的卻未能否定,它(第Ⅱ類錯誤)的機率將因規定得愈小而愈大。增大樣本可以減小出現第Ⅰ或第Ⅱ類錯誤的機率。
非參數統計
大多數統計分析方法都建立在“數據服從某一分布(假設
常態分配的較多)“這一基本假定之上,通過
樣本統計量來估計
總體參數,而真實情況大多並非如此。有很多數據並沒有其相應的理論分布。這時,一般採用不依賴布法的統計方法進行分析,這類方法往往比較直觀,而且計算簡便。常見的,如基於秩次的統計推斷方法,即將觀測結果並不能直接用數據表示,而用反映大小或程度的等級或秩次表示(即秩轉換)。例如,觀測結果是“-”,“±”,“+”及“++”以上,排序後的等級便是1,2,3,4……許多很有效的無分布法就是基於數據或觀測結果的大小順序的。由於無分布法通常並不涉及數據分布的參數的估計和推斷,所以稱為
非參數方法,有些文獻中亦稱之為”不依賴分布“(Distribution free)的統計分析方法。
生存分析
許多生物現象的動態觀察結果都比一次性的橫斷面觀察更能說明問題。例如:
惡性腫瘤患者接受手術治療的效果,要看他們術後經過一段時間的生存率,或者有必要描繪出在不同條件下的生存率曲線(以時間為
橫軸,
生存率為縱軸),以便進行分析與比較;
器官移植的效果,要看異體器官在體內正常工作和不被排斥的時間等。生存分析的用途是廣泛的。
多元分析
又稱多指標或
多變數分析,是對多個觀測指標同時進行綜合性分析,所以比普通的一元統計分析更為全面、有效。這是40年代就已出現的一系列好方法。由於涉及較深的數學知識和很複雜的計算,妨礙了它們的普及,隨著計算機和
統計軟體包的日益完善,預料多元分析不久將會成為生物科學研究的常規武器。多重回歸是指多個
自變數和一個
因變數的回歸;而
多元回歸是指不止一個因變數的回歸。但二者常被混淆使用。它們可用於預測、指標的綜合或自變數的篩選。
判別分析是利用形如多重
回歸方程的
判別函式來進行個體種類的判斷或診斷。
聚類分析是將許多個體或指標按它們的相似程度來歸類。對個體進行
聚類稱為Q型聚類;對指標進行聚類稱為R型聚類。Q型聚類和判別分析是
數量分類學的兩種基本方法。趨勢面是以地理上的經、緯度為自變數的
高次方程,可用於繪製研究對象在地理上的分布密度的
等高線圖,亦可用於預測。
主成分分析的目的在於將許多彼此相關的指標變換成少數幾個彼此獨立的
綜合指標,而且它們包含了原來那些指標的幾乎全部
統計信息。
因子分析的計算程式與主成分分析類似,但它不是研究指標的變換,而是分析個體間的內在聯繫,此法為心理學家所首創,也可用於研究複雜的疾病。
統計工具
目前,從全球範圍來看,JMP Clinical, Matlab(Bioinformatics Toolbox),
R語言, SPSS, PRIMER等軟體的使用較為普及,主要用戶有生物統計學家、生物信息學家、基因學家以及學生等。這些軟體能提供豐富強大的分析功能以及
動態圖形分析,為苗頭化合物尋找、臨床前研究、臨床試驗、流行病研究、疾病控制、公共衛生、生物統計教學等領域提供前所未有的強大、便捷、高效的分析能力。、
套用
農業科學從過去的定性研究到現在逐漸趨向於定量化研究, 這一過程中不可缺少的是數學工具。 生物與數學相互融合產生的生物統計學在農業科學的多方面研究中發揮著巨大作用。
為了提高農產品的品質與產量,我國新引進多種糧食品種。 但新品種適宜在什麼樣的環境下生長、 利於作物生長的肥料品種以及施肥量的多少等問題都需要事先用生物統計學進行分析研究。除此之外,農田生態系統中的各種害蟲、雜草的生長也會對作物產生不利的影響, 農業勞作者一般通過簡單噴灑農藥的方法來控制。 而施用何種農藥以及藥劑量的多少, 既能有效消滅作物天敵又能儘量降低對農作物的損害, 同時降低經濟損失等等問題, 也要依靠生物統計學進行預測和預報。
另外還有學者發現, 具備生物統計學知識可以預測一些生物現象的發生,而且準確率較高, 然而很多人對此卻並不了解。 因此在相關人群中普及生物統計學的知識勢在必行。