特點 (1)獨立性。
被試 特質水平不依賴於被試樣本的代表性;被試水平參數不依賴於測驗項目組;項目
特徵參數 不依賴於所測被試組的參數不變測驗項目組。
(2)項目理論中被試水平和項目難度可以直接比較;
(3)正視了
測量誤差 和項目性能是否與被試水平相關這一事實;
(5)從計量學角度提出了自己的新觀點與新技術。
歷史發展 IRT理論發端於20世紀50年代,它同時被丹麥統計學家Georg Rasch和美國心理統計學家Frederic M. Lord在各自的國家發展起來。儘管採取的研究方法不同,但是他們的結果卻非常相似。
F. Lord在1951年從
普林斯頓大學 畢業時的博士論文《A Theory of Test Scores》被認為是IRT理論的開端之作。在隨後的30年中他進入ETS工作不斷深入研究這個問題並且在1980年出版的《Applications of Item Response Theory to Practical Testing Problems》正式完善了整個IRT理論的框架。
和Lord幾乎在同時,G. Rasch在丹麥政府的委託之下開始研究現代考試理論,他採用了和Lord截然不同的切入點,一開始的時候他稱之為潛在特徵模型(latent trait model),卻發現了極為類似的結果。
數學模型 IRT模型:
3PN 這個模型也叫做“3參數Normal-ogive模型”(3-parameter Normal-ogive model),簡稱為3PN,是由Lord 提出的。
在實際套用中,人們出於數值處理的簡便,更傾向於使用“3參數
Logistic模型 (簡稱3PL模型,3-parameter Logistic model),該模型的表達式如下:
3PL 其中D為常數1.7
根據這兩個模型所繪製出的曲線也叫做項目特徵曲線(Item Characteristic Curve, ICC)。其意義在於描述出“成功解答某一特定考試項目的可能性”和“被測試者能力”(在函式中以θ表示)之間的關係。在以上的兩個模型中,共有3個參數:a,b和c。其中參數c一般被稱為“猜測參數”(guessing parameter)或者“偽猜測參數”(pseudo-guessing parameter)。在圖像上,c所代表的是ICC的下限,其直觀意義為:當一個被測試者的能力值非常低(比如接近負無窮),但是他仍然能夠有可能做對這道題目的機率c就是他猜測的能力。
b叫做項目難度參數,也稱為項目難度(item difficulty)。b一般表示在ICC圖像最陡的那一點所對應的θ值。對於下限為0的ICC函式來說,b所對應的是機率為0.5的測試者能力值。改變b會導致ICC的左右移動,但是不改變其形狀。當b值增加,會使ICC曲線向右移動(θ值高的的方向),這會引起在即使θ保持不變,但是答題正確率下降,亦即題目難度增加。反之當b值減小,ICC曲線向左移動。題目難度降低。
a叫做區分度參數或項目區分度(item discrimination)。在數學上,a的值是ICC曲線拐點處的
斜率 ,即斜率的最大值。在這一點上,能力值微小的改變會造成最大的
P值 (回答正確率)變動。所以a體現的是該項目的最大區分度。
而Rasch提出的模型:
爭論 雖然Rasch和Lord在幾乎同時獨立地提出了各自的模型。並且這兩個模型現在都被廣泛認為是IRT模型的基礎。但是在心理統計學家社群內許多年來一直存在著Rasch模型的篤信者和其餘心理統計學家的爭論。主流的IRT學者認為Rasch模型只不過是3PN模型的一個特例,即在3PN模型中,參數c和a都為0的情況。而Rasch派學者則認為只有Rasch模型是完全不同的模型,真正體現了“測量”的定義,因為在模型成立的時候,θ和b分別是“回答正確的題數”以及“對某一特定題目的正確率”的有效統計量,其簡潔性也優於其他模型。
但是在面對不同區分度的測試項目時,Rasch模型中並沒有相應的參數,所以無法做出區分。事實上對於Rasch派學者來說,他們認為所有的項目區分度都是一樣的。對於主流IRT學者,常見的做法是用別的模型擬合數據,Rasch派學者的方法是把所有不能擬合Rasch模型的測試項目全部拋棄。簡而言之,主流IRT學者的做法是“用模型擬合數據”,對於Rasch派學者來說,他們選擇“用數據配合模型”,是爭論的主要原因。
至今,Rasch派學者雖然在人數上是學界的少數派,但是他們仍然在考試測量領域以及跨國比較教育研究領域發揮著巨大的影響力。