隨機效應模型

隨機效應模型

隨機效應模型(random effects models),簡稱REM,是經典的線性模型的一種推廣,就是把原來(固定效應模型)的回歸係數看作是隨機變數,一般都是假設是來自常態分配。如果模型里一部分係數是隨機的,另外一些是固定的,一般就叫做混合模型(mixed models)。

基本介紹

  • 中文名:隨機效應模型
  • 外文名: random effects models
  • 簡稱:REM
  • 學科:數學
  • 釋義:固定效應的回歸係數看作隨機變數
  • 相關概念:固定效應模型、混合效應模型
簡介,隨機效應模型的用途,與固定效應模型(FEM)的比較,從定義的角度,基於統計學角度,基於權重分配的角度,

簡介

在面板數據線性回歸模型中,如果對於不同的截面或不同的時間序列,只是模型的截距項是不同的,而模型的斜率係數是相同的,則稱此模型為固定效應模型。隨機效應模型把原來(固定)的回歸係數看作是隨機變數。
除了隨機效應模型,典型的面板數據分析方法還有固定效應模型和混合效應模型。固定效應模型(FEM)假設所有的納入研究擁有共同的真實效應量,而隨機效應模型(REM)中的真實效應隨研究的不同而改變。基於不同模型的運算,所得到的合併後的效應量均數值也不相同。早在1976年,第一篇Meta分析就使用FEM進行了數據合併,基於其統計簡潔性及異質性認知,致使FEM廣泛使用,直到2006年仍然有四分之三的Meta分析的文章在使用。然而,隨著方法學不斷更新及異質性理解,方法學家們對於證據合併內在結構理解與剖析,已開始逐漸對“理想”狀態的FEM產生疑問。隨後,REM逐漸被使用,並替代部分FEM。

隨機效應模型的用途

隨機效應最直觀的用處就是把固定效應推廣到隨機效應。注意,這時隨機效應是一個群體概念,代表了一個分布的信息 or 特徵,而對固定效應而言,我們所做的推斷僅限於那幾個固定的(未知的)參數。例如,如果要研究一些水稻的品種是否與產量有影響,如果用於分析的品種是從一個很大的品種集合里隨機選取的,那么這時用隨機效應模型分析就可以推斷所有品種構成的整體的一些信息。這裡,就體現了經典的頻率派的思想-任何樣本都來源於一個無限的群體(population)。
同時,引入隨機效應就可以使個體觀測之間就有一定的相關性,所以就可以用來擬合非獨立觀測的數據。經典的就有重複觀測的數據,多時間點的記錄等等,很多時候就叫做縱向數據(longitudinal data),已經成為很大的一個統計分支。
上述兩點基本上屬於頻率派,分析的工具也很經典,像極大似然估計似然比檢驗,大樣本的漸近性等。但是,應該注意到把固定的參數看做是隨機變數,可是貝葉斯學派的觀念。當然,mixed models 不能算是完全的貝葉斯模型,因為貝葉斯學派要把所有的未知的參數都看作是隨機的。所以有人把它看做是半貝葉斯的 or 經驗貝葉斯的。在這個模型上,我們可以看到兩個學派很好的共存與交流,在現代的統計方法里兩種學派互相結合的例子也越來越多。
眾所周知,隨機效應有壓縮(shrinkage)的功能, 而且可以使模型的自由度(df) 變小。這個簡單的結果,對現在的高維數據分析的發展起到了至關重要的作用。事實上,隨機效應模型就是一個帶懲罰(penalty)的一個線性模型,有引入正態隨機效應就等價於增加的一個二次懲罰。有趣的是,著名的嶺回歸(ridge regression) 就是一個二次懲罰,它的提出解決了當設計矩陣不滿秩時最小二乘估計(LSE)無法計算以及提高了預測能力。於是,引入隨機效應或者二次懲罰就可以處理當參數個數p 大於觀測個數n的情形,這是在分析高維數據時必須面對的問題。當然,二次懲罰還有一個特性,如:計算簡便,能選擇相關的predictors,對前面的幾個主成分壓縮程度較小等。

與固定效應模型(FEM)的比較

從定義的角度

FEM:假設所有納入的研究擁有共同的真實效應量,或者除了隨機誤差外,所觀察效應量均為真實效應量。如比較對糖尿病黃斑水腫(DME)的抗血管內皮生長因子(Anti-VEGF)藥物中aflibercept與bevacizumab療效,除了藥物自身療效外,其他患者背景、藥物使用情況及測量結局的工具等均“一致”,每個研究的觀察效應量差別僅僅是由於抽樣誤差引起,也就是說,每個研究的觀察效應量就“等於”其真實效應量。Cochrane Handbook已明確指出,當異質性小於40%,建議採用FEM進行Meta合併,因此,FEM對各研究背景較為苛刻,僅適用於“理想化”研究背景。
REM:如上所訴,FEM中假設所有研究的真實效應量是相同的,但在大多數的系統評價和Meta分析中這是很難實現的。因為研究的對象很難保存同質性,所以在REM中的真實效應量會隨著不同的研究所改變,例如一個研究的效應量可能比擁有不同年齡、教育背景、健康程度等參與者的研究的效應量更高或更低,所以真實效應量的大小不僅取決於樣本的抽樣誤差,還取決於參與者或研究對象以及進行的干預措施等,也可稱其為異質性。

基於統計學角度

FEM:假設納入研究擁有共同的真實效應量,如圖1中圓圈所示,各研究合併的真實效應量(θ)用倒三角表示。可以發現,對於FEM,所有研究真實效應量都是相同的。每個研究的樣本量並非無限的,所以都會存在抽樣誤差(ε),從而導致了各研究的觀察效應量(Y)不等於真實效應量(如圖2中正方形所示),並且隨著研究的不同而不同,可以用公式
表示。
圖1圖1
REM:在圖3中,由於每個研究人群的背景、年齡、教育程度、地理環境的因素的不同,導致各個真實效應量也完全不同(成常態分配),同時也不同於合併的真實效應量(μ),把兩者之間的差值叫做真實差值,並用ζ表示(如圖4)。由於抽樣誤差的成在,相互之間的觀察效應量或多或少於真實效應量,例如圖4中的Study3,觀察效應量小於真實效應量,而真實效應量又小於合併的真實效應量,所以在REM中,合併後的真實效應量由兩種因素決定,即真實差值和抽樣誤差,可用下列公式表示。
圖2圖2
圖3圖3
圖4圖4

基於權重分配的角度

在Meta分析中,為了減少誤差獲得更加準確的結果,每種模型的計算各不相同,主要體現在各個研究權重值的分配上,這也是兩種效應模型的根本的區別所在。
FEM:在這種模型中,權重的分配主要依賴其精確度,每個研究的權重等於方差的倒數(W=1/V),樣本量越大,效應量的方差就越大,那么相應的權重分配就越多。因此大樣本的研究對總合併後效應量的貢獻值相對於小樣本研究就更大,導致小樣本研究更容易被忽略,分配的權重也就更少。
REM:與FEM不同,REM的總效應量是各個研究真實效應量的均數值,並非只注重大樣本量的研究,而是為了平衡每個研究的效應量注重所有納入的研究。

相關詞條

熱門詞條

聯絡我們