1998年真分數理論是最早實現數學形式化的測量理論。它從十九世紀末開始興起,二十世紀30年代形成比較完整的體系而漸趨成熟。50年代格里克森的著作使其具有完備的數學理論形式,而1968年洛德和諾維克的《心理測驗分數的統計理論》一書,將經典真分數理論發展至顛峰狀態,並實現了向現代測量理論的轉換。
所謂真分數是指被測者在所測特質(如能力、知識、個性等)上的真實值,即(True Score)真分數。而我們通過一定測量工具(如測驗量表和測量儀器)進行測量,在測量工具上直接獲得的值(讀數),叫觀測值或觀察分數。由於有測量誤差存在,所以,觀察值並不等於所測特質的真實值,換句話說,觀察分數中包含有真分數和誤差分數。而要獲得對真實分數的值,就必須將測量的誤差從觀察分數中分離出來。為了解決這一問題,真分數理論提出了三個假設:其一,真分數具有不變性。這一假設其實質是指真分數所指代的被測者的某種特質,必須具有某種程度的穩定性,至少在所討論的問題範圍內,或者說在一個特定的時間內,個體具有的特質為一個常數,保持恆定。其二,誤差是完全隨機的。這一假設有三個方面的含義。一是測量誤差的平均數為零的正態隨機變數。在多次測量中,誤差有正有負。如果測量誤差為正值,觀測分數就會高於其實際的分數(真分數);如果測量誤差為負值,則觀測分數就會低於其實際的分數,即觀察分數會出現上下波動的現象。但是,只要重複測量次數足夠多,這種正負偏差會兩相抵消,測量誤差的平均數恰好為零。用數學式表達為:E(E)=0。二是測量誤差分數與所測的特質即真分數之間相互獨立。不僅如此,測量誤差之間,測量誤差與所測特質外其它變數間,也相互獨立的。其三,觀測分數是真分數與誤差分數的和。即X=T+E。
在上述三個基本假設的基礎上,真分數理論作出了如下兩個重要推論:第一,真分數等於實得分數的平均數(T=E(X));第二,在一組測量分數中,實得分數的變異數(方差)等於真分數的變異數(方差)與誤差分數的變異數(方差)之和。即(S2X= S2T + S2E)。 經典測量理論在真分數理論假設的基石上構建起了它的理論大廈,主要包括信度、效度、項目分析、常模、標準化等基本概念。
(1)信度(Reliability)。信度是測量理論中最重要的核心概念,指測量果的一致性程度,亦稱可靠性程度。在經典測量理論中信度被定義為:一組測量分數的真分數的方差(變異數)在總方差(總變異數)中所占的比率。
由於真分數的方差和誤差分數的方差是無法獲得的,因此這個信度概念還只是一個理想的構想的概念,不能直接計算。為了解決這一問題,CTT提出了平行測驗(Parallel Test)的概念。
所謂平行測驗是指能夠對同一被試的同一特質作相同準確測量的不同測驗形式(測驗題目)。如果某一測驗有許多平行式,則某被試可以在每一形式上獲一個觀測分數,這樣就產生了一個觀測分數的分布,這一分布的平均值就稱作該被試的真分數。實際上,平行測驗是一個構想的概念,要在實際的測驗的編制中實現是非常困難甚至是不可能的,最多也只能說是比較接近。
在平行測驗假設的基礎上,CTT提出了估計測驗信度的一系列方法,如採用相關法進行重測信度(Test-retest Reliability)、複本信度(Equivalent-forms Reliability)、分半信度(Split-half Reliability)的估計,提出同質性的概念以保證反應的一致性,如克倫巴赫(Cronbachα)係數、庫德和理查遜(G.F.Kuder & M.W.Richardson,1937)提出的估計一致性的兩個公式K-R20公式和K-R21公式、荷伊特信度(Hoyt,1941)等都是進行同質性估計的重要方法。
(2)效度(Validity)
測量的效度是指測量結果的有效性程度,也就是已測到的質和量與主試者欲測的質和量相符合的程度,有的也稱效度為正確性。效度是任何一種測評必須解決的首要問題,因為有效性決定了一種對測量效度的考查是一個很複雜的問題,特別是對人的潛在特質的測量,因為潛在特質並不是一個看得見摸得著的物質實體,而是一種觀念構想。對潛在特質的測量只能採用間接的方法,其測量模型可表示用行為主義的公式S-R表示,在測量過程中我們所能控制的是呈現給被試的刺激S,所能觀測到的是被試在一定測量情景下對刺激S的反應R。而潛在特質是介於S和R之間的,在這一中間過程對S傳入大腦的信息作出了處理,處理後的信息以R方式輸出。簡單地說,效度要弄清楚的是在S信號傳入大腦後,哪種(哪些或最主要是哪一種)特質參與了對輸入信號的處理。
CTT對效度問題提出了諸多解決方案,因而有很多效度名稱。如,同時效度,預測效度,表面效度,相容效度,協同效度,假設效度,效標關聯效度,實證效度,經驗效度等等。為了規範效度問題的研究與解釋,美國心理學會在1974年將測量的效度分為三大類,即,內容效度(Content Validity),是指測驗的內容對欲測範圍內內容的代表性程度;結構效度(Construct Validity),測量結果與測驗的理論假設之間的一致性程度;效標關聯效度(Criterion-related Validity),又稱實證效度,指測量的結果與某種外在效標之間的一致性程度,一般用測驗分數與效標之間的相關係數表示。
成就測驗或學科測驗(以檢測知識為主的考試)較容易獲得較高的內容效度,而對這類測驗也往往注重考察它們的內容效度。對於能力測驗、個性測驗、態度測驗、品德測評等,其內容效度的考察往往比較困難,而採用效標關聯效度較多。效度的檢驗不是一次就能完成的,往往要通過累積證據的方法不斷積累效度資料來證實它的有效性,結構效度在根據某一理論結構模型(智力、個性等)編制測驗時特別注重,它也是通過累積證據的方法來效度獲得支持的。
(3)項目分析(Item Analysis)
為了提高測驗的信度和效度,CTT理論特別注重測驗項目的質量,除了深入研究試題的類型和功能及編制技巧外,還發明一系列篩選、甄別項目的方法,統稱為項目分析,其中最主要的是難度分析和區分度分析。項目難度的主要指標是通過率,即在該題上答對的人數與全體被試的比率(或平均得分與該題滿分的比率)。僅難度還不足以說明題目質量的優劣,CTT還提出以題目對被試水平區分鑑別能力作為評價試題質量的區分度概念。
(4)常模(Norm)
CTT理論認為,僅從測驗試卷上的得分不能獲得被試個體確切地位的信息。為了對測驗的分數進行合理的解釋,提出常模的概念。所謂常模即是從某一總體中抽取的被試樣本在該測驗上得分的分布,以常模團體的平均數(或中位數)為參照點,將個體的分數標定在高或低於參照點的某一位置以確定該被試在團體中的相對地位。這種標定可以通過原始分數(Raw Score)轉換成量表分(Scale Score),或稱導出分數。CTT將這種類型的測驗稱為常模參照測驗(Norm-referenced Test),與此相對應的稱為標準參照測驗(Criterion-referenced Test),其測驗分數的解釋與轉換方法有所不同。
(5)標準化(Standardization)
所謂標準化是指對測驗實施程式、對象範圍、施測環境、測試方式、測驗時限、分數解釋(常模)作了統一的規定,使測驗能夠在異時、異地,不同的主試等條件下進行,並能得到同等有效的測驗結果。標準化的思想主要來自於自然科學中對實驗條件進行嚴格控制以降低測量誤差,其方法主要源自實驗心理學中對無關變數和干擾變數控制的方法。
2 概化理論
凡測量都有誤差,誤差可能來自測量工具的不標準或不適合所測量的對象,也可能來自工具的使用者沒有掌握要領,也可能是測量條件和環境所造成,也可能是測量對象不合作所引起。總之產生測量誤差的原因是多種多樣的,而CTT理論僅以一個E就概括了所有的誤差,並不能指明哪種誤差或在總誤差中各種誤差的相對大小如何。這樣對於測量工具和程式的改革沒有明確的指導意義,只能根據主試自己的理解去控制一些因素,針對性並不強。鑒於此種情況,二十世紀六十至七十年代初,克倫巴赫(Cronbach)等人提出了概化理論(Generalizability Theory)簡稱GT理論。
GT理論的基本思想是,任何測量都處在一定的情境關係之中,應該從測量的情境關係中具體地考察測量工作,提出了多種真分數與多種不同的信度係數的觀念,並設計了一套方法去系統辯明與實驗性研究多種誤差方差的來源。並用“全域分數”(Universe Score)代替“真分數”(True Score),用“概括化係數,G係數”(Generalizability Coefficent)代替了“信度”(Reliabilty)。
概化理論認為,測量的總方差可以分解為代表目標測量的方差成分和構成誤差的種種方差成分。測量工作中要加以認識和予套用的心理特質水平是測量目標。而構成測量條件與具體情境關係的因素,稱為測量側面(Facets of Measurement)。如學生閱讀能力測驗,其目的是對學生閱讀能力的測量,因此,閱讀能力就成為測量目標,除此外試題的水平和評分者等因素也會影響測驗的總變異。這兩個因素就是測量側面。這裡對學生閱讀能力的測量是在雙側面情境的條件下進行的。測量側面中的單個事例叫側面的水平,如有兩個評分者甲和乙,則評分者這一側面就有兩個水平。測量側面又分為隨機側面和固定側面。隨機側面是指測量側面中所包含的各水平中是類似水平的隨機樣本,而非固定不變的側面,如大規模考試中評分者每次都有可能不同,由這樣變化的評分者所組成的測量側面就稱為隨機側面。固定側面是指在各次實施中測量側面的所在水平一直保持不變的測量側面,如標準化的心理測驗中測驗的項目總是一樣,這樣的側面就叫固定側面。因此,進行測驗的標準化就是對某些測量側面進行固定。固定測量側面可以減少測量誤差,但卻會使測量目標變得更為局限。比如,把閱讀理解題定為對科技說明文,這時,所測的特質就不再是一般的閱讀理解能力,而是特定的對科技說明文的理解能力了。這樣,測驗所得的分數就不能再推廣到原來那么寬廣的範圍了。
概化理論強調,測量目標是具體的,並不是絕對固定不變的。因而全域分數也就不固定,可以有多種。一方面,當固定側面時,側面本身會轉化為測量目標的一部分(如對一般閱讀理解能力的測量轉變為對科技說明文的測量),測量目標要局限化;另一方面,當測量中考察目的與套用需要改變時,測量目標對象就可能完全轉移。比如,當作文考試結果是要對考生作判斷時,測量目標就是考生的作文能力,若要把評分嚴與評分寬的評分者區分開,評分者的能力就成了測量目標,也即測量目標就完全發生了轉移。顯然,測量目標不同時,標誌測量目標的分數也就不同。測量目標在具體關係條件下的分數叫全域分數。這樣,有時對同一批測量資料來說,當測量工作的具體關係變化時全域分數也會變。即同一測驗資料就可能有多種全域分數。
概化理論把全域分數方差對總變差的比稱為為概括力係數(簡稱G係數)。而總方差可以分成全域分數方差(δ2 (p)和誤差分數方差(δ2(δ)),如果測驗是常模參照性測驗,則G係數E2ρ是評價測驗穩定性程度的最佳指標:
即: E2ρ=(δ2(p))/[ δ2(p) +(δ2(δ))]
若該測驗是標準參照性測驗,則其依存性j指標是測驗穩定一致性的最好指標。
j=(δ2(p))/[ δ2(p) +(δ2(△))]
上兩式中,誤差方差δ2(δ)可能是很多項的和,如上例中考生的閱讀理解能力的方差是標誌測量目標的方差,即為全域分數方差記為(δ2(p)),而試題、評分者及三個主效應間的互動作用方差(共有7種方差成分)都不應包括在全域分數方差之中,作為誤差方差(δ2(δ))的一部分,是構成總方差的成分之一。由此可見,當全域分數方差不變,而誤差分數方差增大時,概括力係數值降低,信度降低。反之,當全域分數方差增大,而誤差分數方差不變,則概括力係數增大,信度提高。所以,隨著測量情境關係的變化,測量目標與側面的變動,概括力係數即信度也就會不同。同一批資料就可能有多種不同含義與取值的概括力係數。一般說來,增大概括力係數的方法有兩種:第一種是,固定測量側面(如固定試題)。第二種是增加側面所包含的水平數(如增加試題或評分者數目)。(漆書青,1993)
概化理論是用方差分析的方法來全面估計出各種方差成分的相對大小,並可直接比較其大小。雖然真分數理論也可以分別地估出某一方差成分的大小,如代表試題側面的內部一致性係數,代表評分者側面的評分者信度等,正因為是單獨估出的,這些值之間不能直接比較,也只有對主效應作估計,而不能對互動作用進行估計。而概化理論卻能做到這一點。它既能估計出主效應,也能估計出互動作用效應,並能對各估計值的大小進行直接比較。在概化理論中,理論估出各方差成分相對大小的過程,叫概化理論的概括分研究階段或稱G-研究階段。
概化理論並不內靜止地分析各種誤差來源,還要在G-研究的基礎上,通過實驗性研究,進一步考察不同測驗設計條件下的概括力係數的變化狀況,如固定側面或增加側面水平下的變化狀況,從而探求到最佳的控制誤差的方法,作出最佳的設計決策,從而改進測驗的內容、方式方法提供了有價值的信息。這一階段稱作決策研究或稱D-研究階段。
GT在研究測量誤差方面有更大的優越性,它能針對不同測量情境估計測量誤差的多種來源,為改善測驗,提高測量質量有用的信息。其缺陷是統計計算相當繁雜,如果藉助一些統計分析軟體可以解決這一問題。GT理論目前在我國還處於實驗研究階段,在面試、考核等主觀性測評中有一些套用(劉遠我,張厚粲,1998)
3 項目反應理論
任何一種理論都不可能是完美無缺的,作為測量初期發展起來的理論更是不可避免地存在著一些缺陷。項目反應理論(Item Response Theory, IRT)則是在反對和克服傳統測量理論的不足之中發展起來的一種現代測量理論。
無論是CTT還是GT,其測驗內容的選擇、項目參數的獲得和常模的制定,都是通過抽取一定的樣本(行為樣本或被試樣本),因此可以說二者都建立在隨機抽樣理論基礎之上。它們的局限性主要表現在以下四個方面:
(1)測量結果的套用範圍有限。一般來說,對測量誤差的控制有三種方法:配對或標準化、隨機化、統計調整。配對或標準化技術的套用使得誤差變數的影響不能解釋測量結果的差異,隨機化技術的套用可使誤差變數的影響不能在測量結果上形成系統誤差。統計調整技術建立在數學模型基礎上,將誤差變數的影響參數化,從而在測量中調整參數估計值,減少誤差變數的影響。經典測驗理論主要套用的是配對或標準化技術和隨機化技術。然而,使用配對或標準技術的測量結果僅僅能在相同的測量條件下成立,卻不能將其拓展到非標準化的環境之中去,使得測量的套用受到很大的限制。
(2)測量分數賴性於具體的測驗(內容)。經典測量理論控制誤差套用標準化技術,但其標準化的對象是測驗的各種外部變數,對測驗的內部變數即測驗的項目的“性質”這一變數卻沒有也不可能實現標準化。這就造成了測驗分數對具體測驗的依賴性,迫使經典測驗理論要么使用統一的試卷,要么使用實際上並不平行的所謂“平行試卷”。這種處理方法,即給實際操作帶來困難,也給結果的解釋帶來較大的誤差。
(3)測量參數依賴於被試樣本。經典測量理論構造了一個完整的理論體系,同時設計了一套參數指標來刻劃測量各方面的特性。如測驗的信度、效度、項目的難度、區分度等。但是這些參數的估計對樣本的依賴性是很大的。測驗的信度和效度採用相關分析法,同樣受到樣本的影響。為避免抽樣誤差對參數估計的影響,經典測量理論特彆強調樣本對總體的代表性。但經典理論所套用的是隨機抽樣,隨機抽樣總是偏差存在。何況在實際工作中,由於客觀條件的限制,還不能做到隨機抽樣。因此,參數估計值對樣本的依賴性使得所估參數對測驗的分析的價值是有限的。
(4)信度估計的精確性不高。測量的重要目標就是降低測量誤差,提高測量的精度。在經典測量理論中,信度被定義為真分數的變異在總變異(觀測分數)中所占的比率。然而,真分數的方差是無法求取的,誤差的方差也無法計算。為了估計信度,CTT就提出了平行測驗的概念,並在此基礎上推演出了若干個信度估計公式。但是嚴格的平行測驗是不存在的,等價測驗也很難獲得的,在此基礎上估計的測驗信度很難達到比較高的精確程度。另外,經典測量理論中的信度估計值也是一個籠統值,即假定對不同能力水平的被試來說,測量的誤差是相同的。而事實是,一份測驗只有在施測於能力水平與測驗難度相當的被試時容易獲得比較高的測量精確度。當測驗施測於能力水平高於(或低於)測驗難度的被試時就容易產生較大的測量誤差。而且測量誤差值會隨著被試水平與測驗難度距離的增加而變大。
項目反應理論研究是以潛在特質為假設並從項目特徵曲線開始。所謂項目特質曲線就是用能穩定反映被試水平的特質量表分代替被試卷面總分作為回歸曲線的自變數,並把求得的被試在試題上正確作答機率對特質分數的回歸曲線稱為項目特質曲線(Item Characteristic Curve,簡稱ICC)。項目反應理論研究中的一項重要工作就是要確定項目特徵曲線的形態,然後寫出這條特徵曲線的解析式,即項目反應函式,也稱為項目特徵函式(Item Characteristic Function,簡稱ICF)。
第一個項目反應理論模型是由洛德於1952年提出的雙參數正態肩形曲線模型。其項目特徵曲線的形狀和函式如下。
θ表示被試特質水平的參數;Pi(θ)表示特質水平為θ的被試在項目I上正確回稱的機率。從理論上講,θ的取值在-∞和+∞之間,當θ=-∞時Pi(θ)為0,當θ=+∞時Pi(θ)為1;bi為項目難度參數,它與特質θ定義在同一個量表上。取θ=bi代入上式,得Pi(θ)=0.5,可見b點是肩形曲線的對稱中心,也是曲線的拐點;ai稱為項目的區分度參數。從圖中可以看出,ai是曲線在拐點bi處的切線斜率的函式,即
自洛德提出第一個IRT模型後,許多學者投入到此領域的研究中,提出了很多種模型,目前套用最多是伯恩鮑姆(Brinbaum)提出的邏輯斯蒂克模型(Logistic
Model)和拉希模型(Rasch Model)。邏輯斯蒂克模型如下:
上式是三參數模型,除了試題的難度參數bi和區分度ai以外,他還增加了一個猜測參數ci, ci通常定義為被試中能力水平遠低於項目難度2/ai個單位的人在該項目實際猜測作答獲得成功的機率。當令ci=0,則上述天參數模型就變成了雙參數模型,如ci=0且ai=1,則變成了單參數模型,邏輯斯蒂克的單數模型與丹麥學者拉希(Rasch)提出的單參數模型是相同的。拉希模型是在實踐中最常用的模型之一,其模型如下:
與CTT理論和GT理論相比,IRT具有以下優點:
第一,項目反應理論深入測驗的微觀領域,將被試特質水平與被試在項目上的行為關聯起來並且將其參數化,模型化,是通過統計調整控制誤差的最好方法。若模型成立並且項目參數均已知,則模型在測驗中為項目性質調整數據,可生成獨立於測驗項目性質的特質水平測量,這是項目反應理論建立項目反應模型的最大優點。也就是通常所說的被試能力估計不依賴於測驗項目的特殊選擇。
第二,IRT模型項目參數的估計獨立於被試樣本。項目特徵曲線是被試作答正確的機率對其潛在特質水平的回歸。而回歸曲線並不依賴於回歸變數本身的次數分布。對於項目反應函式來說,已知特質水平面為θ0的被試在項目i上正確作答的機率僅僅依賴於其值θ0,並不依賴於具有θ0水平的人數有多少,也不依賴於其它θ取值上的人次數。所以,在求取項目特徵曲線的各種參數時,由於回歸線的形狀、位置都不依賴於被試的分布,所以它的參數,包括難度、區分度和猜測參數也都是不變的。
IRT的第三個優點是能力參數與項目難度參數的配套性,亦即項目難度參數與能力參數是定義在同一個量表上的。這樣,對一個能力參數已知的被試,配給一個項目參數已知的試題,我們可以立刻通過模型預測被試正確作答的機率。如果估出被試的能力,我們可以在題庫中選出難度與其能力相當的項目進行新一輪的測試,使得能力估計更為精確。這一特點為自適應測評奠定了基礎。
第四個優良性質是通過模型測得的被試能力水平,可以精確估計其測量誤差。這一優良特性得益於伯恩鮑姆的工作。他把費嘯的描寫測驗信息結構的測度引進了項目反應模型。他提出在項目反應模型下,能力參數未定的被試在n個測驗項目上的信息測度可由下式給出。其中Ii(θ)是項目i上的信息,Pi’(θ)是Pi(θ)的導數。
利用IRT這些優良性質,可以開發優質題庫,可以按測量精度目標編制各種測驗試卷,可能實施測驗等值,可以偵察測驗項目功能偏差,可以實現計算機化的自適應測驗(CAT)。
項目反應理論的發展除了自身的基本理論系統,模型種類,數據模型擬合檢驗方法和參數估計方法的發展之外,在實際套用方面也有很大成就,主要表現在三個方面:一是指導測驗編制。伯恩鮑姆和費嘯的測驗信息結構的測度引入測驗,導致通過建立測驗信息目標函式來影響測驗的結果,從根本上改善了測驗編制的指導思想。在此基礎上發展起了多種測驗編制指導方法,特別是對目標參照性測驗編制的指導,一改經典測驗理論軟弱無力的指導狀況。二是計算化自適應測驗的興起,其三是項目反應理論認知測量模型的出現,將測量導向與認知心理學相結合的方向,套用測量模型直接探索人的認知結構。
IRT的優良特性確實是測評希望達到的理想狀態,但也存在著一定的局限性,首先它假定所測的特質是單維的,這只是一種理想狀態,在現實中很難滿足這一假設。其次,現有的IRT模型主要是針對的是二級評分試題(即只有正確與錯誤兩種答案的試題),而對多級評分的試題模型,雖說有一些探索,但還不是太成熟。第三,IRT的參數估計不依賴於特定的樣本,但是要使參數的估計具有穩定性,需要大樣本才可以,而在現實的測評中要對大量的試題進行大樣本測試以獲取穩定的參數估計值,其人才和物力的投入都是相當可觀的。上述問題都制約了IRT理論在實踐中套用的推進程度。但必須提出的是,IRT代表了現代測量理論的發展方向,隨著統計理論成熟和計算機技術的普及和測評需求的發展,IRT理論將逐步擴大其的現代人才測評中的套用範圍。
上述三種測量理論構成了現代人才測評的理論基石。三種理論各有長短,經典理論容易理解、操作簡單,體系完整,在現實中更易於被接受,因為適應面很廣。GT理論主要解決測量誤差的問題,對於分析測量的信度有一定優勢。IRT理論數理邏輯嚴密,測量精度高,但對使用者的素質和客觀條件都有很高的要求,故套用的範圍受到限制。在人才測評實踐中,要根據具體的測評對象、目的和具備的條件選擇恰當的理論來指導測評工作。當然如果能將幾種測量理論的優勢結合起來則會獲得更好的測評結果。