《含有缺失的散度偏大計數數據的有限混合建模研究》是依託昆明理工大學,由付英姿擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:含有缺失的散度偏大計數數據的有限混合建模研究
- 項目類別:青年科學基金項目
- 項目負責人:付英姿
- 依託單位:昆明理工大學
項目摘要,結題摘要,
項目摘要
本項目以生物醫學、經濟學、公共健康以及保險等領域中廣泛存在的計數數據為研究對象,擬基於有限混合模型對含有缺失的散度偏大計數數據展開統計推斷研究。具體而言,通過全面分析導致計數數據散度偏大成因,建立起上述數據的有限混合回歸模型,以合理刻畫數據的非同質性和散度偏大等特徵;在此基礎上,結合不同的缺失數據機制,擬分別從似然和Bayesian分析的角度進一步深入研究上述模型在混合個數估計、模型參數估計、統計診斷、局部影響分析以及模型選擇方面的理論方法,希望建立有效的估計算法、合理的統計診斷度量以及模型選擇標準。本項目的研究是當代統計學中熱點問題的自然結合和推廣,其相關研究不僅為複雜計數數據的有限混合研究提供理論和方法上的支持,還可能為實際工作者提供技術上的參考。其預期研究成果為論文,預計在國內外重要學術刊物上發表論6-9篇。
結題摘要
本項目以現實生活中廣泛存在的零點膨脹計數數據為研究對象,並借鑑了近年來計數數據分析方面的新思路和新方法,得到如下四個方面的研究成果:(1) 具有零點膨脹的不完全計數數據的有限混合建模,並研究上述模型中混合個數的選擇方法和模型參數的估計方法。 具體的,本研究重點考慮了不可忽略缺失數據下泊松分欄回歸的有限混合建模以及隨機EM算法的問題,其基本思想為通過對“決定性”的估計程式引入一“隨機擾動”機制,則該算法有望跳出局部極大的“陷阱”從而找到全局極大。其中,隨機步可分解為三個子步驟,以分別對混合比例、缺失數據以及添加的潛在變數實施抽樣,基於抽取的樣本可得到完全數據集。基於完全數據集, E步和M步的計算時相對直接且容易的。(2) 對具有測量誤差和偏斜分布的集群計數數據的貝葉斯分析。本研究將零點膨脹泊松混合效應模型推廣到了具有測量誤差以及偏態T分布的零點膨脹層次回歸模型上,為了解決模型結構的複雜性為貝葉斯後驗模擬造成的困難,本項目將上述模型分解為三個層次的子模型並採用Winbugs軟體進行參數估計;在此基礎上,利用了貝葉斯卡方擬合優度統計量來評估數據對於模型的擬合好壞並採用了DIC 準則以進行模型之間的比較和選擇。(3) 不可忽略缺失機制下廣義泊松有限混合回歸模型的貝葉斯後驗推斷。本研究重點考慮了不可忽略缺失機制下廣義泊松有限混合回歸模型的貝葉斯後驗推斷問題。在適當的先驗假設下,通過數據添加方法並藉助於Gibbs抽樣技術以及MH算法以得到模型參數的貝葉斯估計,對於有限混合建模研究的核心問題—如何確定混合成分的個數,則建立起了基於加權K-L距離的貝葉斯檢驗方法,在此基礎上還考慮了貝葉斯擬合優度檢驗以進一步評價模型的合理性。(4) 含有空間效應計數數據的貝葉斯後驗推斷。本研究以雲南省吸毒人群中愛滋病感染者為主要研究對象,建立起以受癮程度為回響變數的分欄泊松回歸模型,並進一步研究回響變數與個體自身因素、吸毒相關因素、以及生活方式因素之間的關係。其中,採用了多種策略以定義空間隨機效應分布,計算相對風險並評估不同因素對受癮程度的影響。 本項目的研究是當代統計學中熱點問題的自然結合和推廣,適應了實際問題中對複雜數據分析的需要。其相關研究成果不僅為計數數據分析提供理論和方法上的支持,還可能為廣大實際工作者提供技術上的參考。本項目如期完成預期目標,發表論文7篇,培養碩士研究4名。