《數據缺失對依時混雜偏倚控制的影響及處理方法研究》是依託北京大學,由劉慧鑫擔任負責人的青年科學基金項目。
基本介紹
- 中文名:數據缺失對依時混雜偏倚控制的影響及處理方法研究
- 項目負責人:劉慧鑫
- 依託單位:北京大學
- 項目類別:青年科學基金項目
項目摘要,結題摘要,
項目摘要
數據缺失是佇列研究中普遍存在的現象,並會導致研究結果歪曲、統計工作效率降低。自上世紀70年代起,數據缺失一直是方法學研究的熱點和難點。近年來,研究者們提出佇列研究中另一個研究熱點,即依時混雜偏倚,並提出使用邊際結構模型控制該偏倚。但是,當研究中數據缺失與依時混雜偏倚同時存在時,如何處理還沒有明確定論。我們前期的研究工作發現:採用不同數據填補方法,套用邊際結構模型校正依時混雜偏倚得出的分析結果有差異,但差異產生原因還未可知。為探索數據缺失對依時混雜偏倚校正的影響,課題組擬開展以下兩部分研究:1. 套用既有佇列研究數據,模擬不同缺失機制、缺失比例情境,觀察數據缺失對研究結果的影響;2. 分別採用末次結轉法、多重填補法和權重調整法,對模擬數據進行填補,探索依時混雜偏倚存在時,各種數據缺失處理方法的適用條件。本研究將有助於研究者明確依時混雜因素存在缺失數據時的處理方法和原則,以得到無偏的研究結果。
結題摘要
數據缺失是佇列研究中普遍存在的現象,缺失數據的存在會導致研究結果歪曲、統計工作效率降低,缺失數據相關研究一直是方法學研究的熱點和難點。近年來,真實世界研究成為研究熱點,但是真實世界研究中存在的混雜因素校正是熱點問題中的難點。本課題組一直關注依時混雜因素校正相關研究,前期研究文獻檢索時發現,當依時混雜因素數據存在缺失時,缺失率多大需要進行校正、如何進行校正還處於探索階段。因此,本研究基於已有佇列研究數據,整理成為完整數據集,並基於完整數據集,分別模擬生成完全隨機缺失(Missing Completely at random,MCAR)、隨機缺失(Missing at random,MAR)、非隨機缺失(Missing not at random,MNAR)三種缺失機制下、缺失率5% 到 40%的模擬數據集,每種缺失機制每種缺失率數據模擬100次,觀測不同缺失機制不同缺失率對參數估計的絕對偏倚和相對偏倚;並分別採用末次結轉法(Last observation carried forward,LOCF)、多重填補法(Multiple imputation,MI)以及逆機率權重法(Inverse probability weighting,IPW)對模擬的缺失數據集進行填補,比較不同缺失機制、不同缺失率下不同填補方法的填補正確率。研究結果顯示,完全隨機缺失機制下,不同缺失率參數估計的絕對偏倚和相對偏倚均較小,隨機缺失缺失率在20%以上、非隨機缺失缺失率在15%以上時,參數估計的相對偏倚較大,建議採用數據填補方法對缺失數據進行填補。同時,比較了三種數據填補方法在隨機缺失和非隨機缺失機制下的填補正確率,結果顯示,多重填補和逆機率權重法填補正確率高於末次結轉法。本研究對不同缺失機制下不同缺失率對依時混雜偏倚校正效果影響及不同填補方法填補效果影響研究,將為存在缺失的依時混雜偏倚因素的處理提供有力參考依據,研究者可以通過對缺失數據填補方法的恰當選擇,有效控制研究中的為依時混雜偏倚,做出正確的因果推斷。