概述
這一思想與傳統的“精密科學實驗”相對立,在精密科學實驗中,不是從承認誤差不可避免出發的,而是致力於嚴格控制實驗條件,以探求科學規律。田間試驗的目的之一是尋求高產品種,而實驗時的土地條件,如土質、
排水等都不能嚴格控制,因此,“在嚴格控制的這樣或那樣條件下,品種A比品種B多收穫若干斤”這類結論的實際意義就不大。在現場進行的工業實驗,醫學上的藥物療效實驗等,也有類似情形。這表明,費希爾首創的實驗設計原則,是針對工農業以及技術科學實驗而設,而不是著眼於純理論性的科學實驗。實驗設計的基本思想,是減少偶然性因素的影響,使實驗數據有一個合適的
數學模型,以便使用
方差分析的方法對數據進行分析。費希爾於1923年與W.A.梅克齊合作發表了第一個實驗設計的實例,1926年提出了實驗設計的基本思想,1935年出版了他的名著《實驗設計法》。其中提出了實驗設計應遵循的三個原則:隨機化,局部控制和重複。隨機化的目的是使實驗結果儘量避免受到主客觀系統性因素的影響而呈現偏倚性;局部控制是用劃分區組的方法,使區組內部條件儘可能一致;重複是為了降低
隨機誤差的影響,以保證實驗結果的重現性。
費希爾最早提出的設計是隨機區組法和
拉丁方方法,兩者都體現了上述原則。
區組設計
指將u個處理安排在b個區組內作實驗的一種實驗設計法。所謂“處理”,是指諸如品種、工藝條件、
種植方法等因素或措施。例如,要比較三個品種的優劣,則每個品種是一個處理,共有三個處理;如試驗中涉及三個品種和兩種種植方法,則每個品種與每種種植方法搭配構成一個處理,一共有3×2=6個處理。每個區組能容納的處理個數稱為該區組的大小,常以k表示。若區組i的大小kj小於υ,則區組i容納不了全部的處理,稱這一類設計為不完全區組設計;當kj均不小於υ時,區組可以容納全部處理,稱這一類設計為完全區組設計。
設要比較8個不同的品種A,B,C,D,E,F,G,H,看哪一個品種產量比較高。若一個區組是一長條地塊,將這個地塊分成8個小塊種植全部8個品種,就得一個完全區組。如共有4個這種區組,則8個品種在每個區組內的安排,要用
隨機化的方法,將區組內的小塊編置。圖1就是一個具體的隨機區組設計。如果有8個區組,每個區組可以容納8個處理,那么不用隨機化而用拉丁方進行設計,也能消除區組內各小塊位置不同的影響。
拉丁方
指將 υ個拉丁字母(每個字母代表一個處理)排成υ行υ列的方陣,使得各個字母在各行各列出現一次且只一次。稱υ為拉丁方的階數。若把拉丁方的行看作區組,是一塊田;把列也看作區組,則是施肥量;那么拉丁方設計不但能消除行內各小塊位置不同的影響,還能可以消除列內施肥量不同的影響。
不完全區組設計
不完全區組設計在實際中常常遇到。一個區組可以是一塊地、一輛汽車的四個輪胎或是車間的一個班組。當處理的數目太大時,要將全部處理安排在一個區組內是有困難的,因為區組的規模太大,就不能保證區組內的均勻性。由此,費希爾的合作者F.耶茨提出:將全部處理分成若干組,每組形成一個區組,使區組的大小縮小以保證區組內的均勻性。由於各個區組不包含全部處理,這種設計叫不完全區組設計。一般地,區組設計的狹義理解大都指不完全區組設計。
不完全區組分類
一類是
平衡不完全區組(BIB)設計,一類是部分平衡不完全區組(PBIB)設計。設b)個區組大小相等,均為k,且k<υ,若能將υ個處理安排在b)個區組內,使每個處理出現的次數r(稱為重複數)都相同,且每兩個不同處理恰好在λ個區組內相遇(稱λ為相遇數,則稱這種安排為一個BIB設計。若λ並不全一樣,而是隨著處理對的不同而分成若干類,則稱這種情況為一個PBIB設計。某些其他設計可以看成是 BIB設計或PBIB設計的一些特殊類型。
在BIB設計的參數υ,b),k,r和λ之間有如下的關係:。這些條件對 BIB設計的存在是必要的,但不是充分的。若υ=b),從而k=r,則稱為對稱BIB設計。若υ為偶數,則r-λ必須是一個完全平方數,否則,設計不存在。例如由於r-λ=12-4=8不是完全平方數,不存在υ=b)=34,k=r=12,λ=4的對稱BIB設計,儘管這些參數滿足上述必要條件。
析因設計
區組設計主要用於農業的單因素實驗,而析因設計既能用於農業實驗,又能用於工業和其他技術科學實驗,其目的是了解因素對某項指標的影響。例如,某項產品質量受原料、加工溫度、加工時間等因素的影響。若原料有三個產地:上海、天津和錦州,把產地作為一個因素,則它們是這個因素的3個水平。若可選的加工溫度是80℃、90℃、100℃和105℃,加工時間是5分鐘和7分鐘,則加工溫度和加工時間這兩個因素分別有4個水平和2個水平。問題是要了解在這些因素的不同水平組合之下,產品質量是否有顯著性差異,並進一步確定這樣一種水平組合,使產品質量最好。析因設計就是將全部因素的水平組合起來做實驗,使得既能估計各個因素的主效應,又能估計因素之間的互動作用。所謂主效應,是指同一因素各水平之間的差異;互動作用是指一個因素的效應因另一因素的水平的改變而起的變化。前例中有3個因素,它們分別有3、4、2個水平,把它們組合起來共有3×4×2=24個水平組合,稱為3×4×2型實驗。若這3個因素分別以A、B、C表示,則從這個實驗可以算出3個主效應A、B、C;3個二因素互動作用A×B、A×C、B×C以及一個三因素互動作用A×B×C。 主效應和互動作用統稱效應,三因素或更多因素的互動作用統稱為高階互動作用。
部分實施法
隨著
因素個數和因素水平的增多,水平組合的數目急劇增加,例如,10個3水平因素的實驗總共有310=59049個水平組合,將近6萬個實驗要全部進行是不可能的。1946年,英國統計學家D.J.芬尼在保證能估計全部主效應和少數一部分低階互動作用的前提下,提出了部分實施法,即只挑選一部分水平組合做實驗,忽略一部分低階和全部高階互動作用。正交表是進行部分實施法最方便的一種工具。
正交表
正交陣列的簡稱,是在
拉丁方和正交拉丁方的基礎上形成的。它的形式和廣泛套用同日本統計學家田口玄一的工作分不開,他的工作得到國際上的重視,在中國也有相當影響。表是正交表的一個例子,這個表記作 L8(27), 表示有8行7列,而每行都包含2個水平,它可用來安排 2水平的實驗。按正交表安排並進行分析的實驗稱為正交實驗。正交表有下述兩個性質:一是任一列的每個水平出現的次數相同;二是任意兩列的各種不同水平組合出現的次數相同。在實際套用中,當把因素對應於正交表各列時,各行則表示應做實驗的水平組合。由於上述兩個性質,任一因素的效應可不受其他因素干擾。
正交表的構作同組合數學有密切的關係,因此,有關正交表的一些理論性問題的探討是純粹數學的課題。如下表5-3既為一個。