項目反應理論的概念
項目反應理論(Item Response Theory, IRT)是一系列
心理統計學模型的總稱,是針對
經典測量理論(Classical Test Theory,簡稱CTT) 的局限性提出來的。IRT是用來分析考試成績或者
問卷調查數據的數學模型,這些模型的目標是來確定潛在心理特徵(latent trait)是否可以通過測試題被反應出來,以及測試題和被測試者之間的互動關係。
目前廣泛套用在心理和
教育測量領域,基於
IRT理論的計算機自適應測試(CAT)是CAA常用的測試方法。潛在特質模型(latent trait model)認為,在被試樣本可觀察到的測試成績和基於該成績不可觀察的特質或能力之間存在著聯繫。
IRT的理論體系(三條基本假設)
– 假設一:能力單維性假設——指組成某個測驗的所有項目都是測量同一潛在特質;
– 假設二:局部獨立性假設——指對某個被試而言,項目間無相關存在;
– 假設三:項目特徵曲線假設——指對被試某項目的正確反映機率與其能力之間的函式關係所作的模型。
IRT最大的優點是題目參數的不變性,即題目參數的估計獨立於被試組。它假定,被試在某一試題上的成績不受他在測驗中其他試題上的成績影響;同時,在試題上各個被試的作答也是彼此獨立的,僅由各被試的潛在特質水平所決定,一個
被試的成績不影響另一被試的成績,這就叫做局部獨立性假設。
IRT理論所做出的一切推論都必須以局部獨立性假設為前提。
IRT常用的模型
IRT根據受測者回答問題的情況,通過對題目
特徵函式的運算,來推測受測者的能力。IRT的題目參數有:難度(difficulty index)---b、
區分度(discriminative powder index)---a、和猜測係數(guessing index)---c。根據參數的不同,特徵函式可分為單參數模型(難度)、雙參數模型(難度、區分度)和三參數模型(難度、區分度、猜測參數)等。
IRT 的模型有
Logistic模型,Rasch模型,Lord的正態卵形曲線模型等二十餘種。下面以Logistic模型為例進行簡要介紹:
其中:
D=1.702;
θ:受測者能力估計值;
a:題目的
區分度,它的值越大說明題目對受測者的區分程度越高;
b:題目的難度;
c:題目的猜測係數,它的值越大,說明不論受測者能力高低,都容易猜對;
P(θ):能力為θ的人答對此題目的機率。
如何選擇恰當的模型進行
參數估計是題庫選題的關鍵。不同的模型具有不同的特點,適合於不同條件下的使用。就上面所列的三種模型而言:
單參數模型比較簡單,使用較為方便,但它對項目參數性質的要求較為苛刻;
雙參數模型要求項目的猜測係數較小;
三參數模型雖然具有涵蓋較多
項目信息的優點,但亦給參數估計帶來更為複雜的工作。
因此,雖然關於模型選擇標準現在尚無定論,不過,可以從命題方式、記分方式、參數性質、樣本人數、模型的強健性、假設的滿足與否等方面得到一些選題的依據。
參數估計
參數估計是套用IRT的前提。常用
極大似然法、
貝葉斯等方法進行參數估計,使得所估計出的試題參數不受考生能力分布的影響,即具有參數不變性的優點。
在項目反應理論中,難度被定義為試題本身固有的特性,不隨考生樣本的變化而變化。該理論認為,如果考生足夠多的話,每道題都會有部分人不能答對,部分人容易答對,部分人費些力氣剛好能夠回答對。試題的難易程度,決定於剛好能夠答對的那部分人的水平高低,水平高的剛好能夠答對該題就難,水平低的也能答上來題就易。這種難度與考生的能力建立在同一個量表上。
在教育與
心理測量中套用項目反應理論時,必須進行項目參數與
被試能力的估計。有時是已知項目參數,估計能力參數;有時是已知能力參數,估計項目參數;更多的是能力和項目參數都未知,需要同時估計項目參數和能力參數。
項目特徵曲線
項目
特徵函式亦稱
項目特徵曲線(Item Characteristic Curve,簡稱ICC),是一種根據測試所獲得的考生能力參數和項目
特徵參數來表示考生可能答對率(成功率) 的IRT 模式的數學表示方法,同一條ICC所對應的項目參數是唯一的。
IRT研究的一項重要工作,就是確定題目特徵曲線的形態,項目反應模型除了要
擬合所選定的題目特徵曲線形態,還應該包括其他一些重要的特徵,否則就不是一個好的模型。
根據特徵函式可畫出項目特徵曲線,下面以典型的Logistic三參數模型的項目特徵曲線為例:
從上圖可以看出:
⑴特徵曲線拐點處的
斜率,即斜率的最大值。表示題目的
區分度,它的值越大說明題目對受測者的區分程度越高。
⑵特徵曲線上最陡的那一點所對應的θ值,表示題目的難度。
⑶特徵曲線的
截距,表示題目的猜測參數,它的值越大,說明不論受測者能力高低,都容易猜對本道題目。
教育測量學研究表明,未經篩選的大
被試群體的基本心理素質如智力、能力、人格特點等的分布,服從
常態分配。所以,理論上被試能力
取值範圍為(-∞,+∞),但在實際套用中,取值範圍多取[-3.00,3.00]。
IRT的
項目特徵曲線就明確表示出被試能力θ與項目的關係,
橫軸θ,縱軸P(θ),它表示具有某種能力θ的被試答對某項目的機率P(θ)。因此,只要已知被試的能力值,就可預測出他們可能答對某個項目的機率。
項目信息函式與測驗信息函式
信息函式是項目反應理論中用以刻畫一個測試或一道試題有效性的工具,它是直接反映測驗分數對學生能力估計精度的指標。
項目信息函式(item information function)是IRT 的核心概念,這個基礎性的概念對測驗的套用領域起了諸多影響。信息函式值越大,這種估計就越精確。項目信息函式反映了不同特性(參數)的項目在評價不同
被試特質水平時的信息貢獻關係。
測驗信息函式則是項目信息函式的累加和,測驗信息函式反映了整個測驗在評價不同被試特質水平時的信息貢獻關係,測驗提供的
信息量越大,則該測驗在評價該被試特質水平時越精確。
每個項目所提供的信息量是它所測被試特質水平的函式,因而項目及測驗信息函式值均是針對某一
被試特質水平來說的,隨被試特質水平取值的不同而變化;
每個項目在某一特質水平處所能提供的
信息量還受項目自身特質的影響;
區分度越大、猜測可能越小,所能提供的信息量越多;
每個項目所提供的信息不受其他項目的影響,測驗中各項目均獨立地對測驗總信息做貢獻,
項目信息函式具有可加性,測驗信息函式等於所含全部項目的信息函式的和;
測驗信息函式在某一特質水平上的值得平方根的倒數,就是該點特質水平估計值的
估計標準誤差。