《基於函式型數據分析的聯合統計建模:理論與套用》是依託北京大學,由黃輝擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於函式型數據分析的聯合統計建模:理論與套用
- 依託單位:北京大學
- 項目負責人:黃輝
- 項目類別:青年科學基金項目
項目摘要,結題摘要,
項目摘要
生存數據與縱向數據的聯合統計建模近年來成為統鑽故墓充計學研究熱點,並廣充戰灶泛套用於盼腳檔生物醫學等眾多科研領域中。然而在處理實際問題時,數據的複雜結構可能會導致現有方法在統計推斷方面不夠有效。本課題擬在前人的工作基礎上,引入函式型數據分析的技術,將聯合統計建模方法拓展到一個新的領域。在理論研究方面,我們從函式型數據的角度出發,利用廣義線性混合效應模型和函式主成分分析等半參數與非參數的方法,對縱向信息和復發事件點過程的軌跡模式和相關性結構提出數據自適應的建模理論,並深入研究其大樣本性質。同時,本課題還將通過大量計算鞏櫃機模擬與數據分析驗證所提建模院姜采方法的有效性,並將其實際套用在公共衛生領域的研究中戀習炒船。
結題摘要
生存數據和縱向數據在很多科學領域,尤其是生物醫學領域,都是非常常見的數據類型。在傳統的統計學當中,分別針對生存數據和縱向數據的建模與分析,已經有了非常廣泛並且深入的研究,但是將兩種數據類型聯合在一起進行建模的相關技術,最近二十年才逐漸發展起來,其中以參數或半參數的方法為多,對觀測數據的格式和數據內相依結構都有著較強的假設。這些假設在現實的科學數據當中很有可能是不成立的,因此使得現有的許多聯合統計建模方法無法在更廣泛的範圍內使用,或者得出的推斷結果存在問題。在本項目中,我們主要考慮了兩種數據類型:一種是復發事件(廣義的生存數據)與稀疏縱向數據相聯繫,另一種是復發事件本身具有縱向結構。第一種數據類型在醫學和行為學研究中非常常見,當復發事件在較長的時段上出現時,其他變數雖然相應地在較長時段上有縱向觀測,但每個個體的重複測量次數十分有限,且個體之間的觀測時間點是不整齊的。本項目提出了一種兩步條件估計方程的方法,利用隨機效應的相依性將縱向信息與復發事件聯繫在一起。具體的,我們利用傳統的Cox比例風險模型對復發事件建模,但加入了隨時間變化的隨機干擾,同時利用函式型數據常用的隨機效應模型對稀疏縱向數據構造模型,以通過“借力”的方式更合理更靈活的刻畫縱向信息的相依結構。這一方法套用到一項古柯鹼吸毒行為的研究當中,發現了吸毒者復吸行為的一些行為模式。第二種數據類型通常會在金融和社交網路當中出現,復發事件出現的多個時間段上,而每個時間段之間又籃囑榜具有一定的相依關係。本項目提出了基於函式型時間序列的Log-Gaussian Cox點過程建模方法,將復發事件背後的點過程與多水平的函式型隨機效應聯合在一起,並從理論上討論了模型參數估計量的大樣本性質。該建模方法套用在我國三百萬個賬戶在三年期間的每日股票交易數據當中,挖掘了不同板塊股票交易行為的特點,並對未來交易行為進行了預測。