基於廣義部分線性單指標模型的高維縱向數據統計分析

基於廣義部分線性單指標模型的高維縱向數據統計分析

《基於廣義部分線性單指標模型的高維縱向數據統計分析》是依託上海師範大學,由許佩蓉擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於廣義部分線性單指標模型的高維縱向數據統計分析
  • 項目類別:青年科學基金項目
  • 項目負責人:許佩蓉
  • 依託單位:上海師範大學
項目摘要,結題摘要,

項目摘要

高維縱向數據在社會學、醫學等領域中經常出現,其最大的特點是數據之間具有相關性。因此,如何在考慮數據相關性的前提下對其進行統計分析一直是近20年來統計學研究的熱點課題之一,具有十分重要的意義。本項目將重點研究高維以及超高維縱向數據下的廣義部分線性單指標模型。首先,本項目擬從模型的識別性、估計的有效性和變數選擇這三方面對高維縱向數據下的廣義部分線性單指標模型進行研究,擬借鑑廣義估計方程的思想提出估計方法並研究其有效性,進而提出能同時進行參數估計和變數選擇的方法,證明變數選擇的相合性,並通過數值模擬研究其有限樣本性質;其次,本項目擬探討超高維縱向數據下廣義部分線性單指標模型的降維問題,構建單指標係數變數的篩選準則,給出篩選方法的大樣本性質,並通過數值分析來評估其有限樣本下的表現;最後,本項目擬結合上述高維和超高維兩種情況下所提出的方法,提出兩階段的特徵篩選和選擇方法並套用於實際數據進行實證研究。

結題摘要

縱向數據分析具有廣泛的實際套用背景,是生物醫學、經濟學等領域研究的熱點問題之一。與截面數據最大的區別在於每一個樣本對應一組離散、稀疏的觀測值,該組觀測數據之間不是獨立的,具有相關性。本項目著重利用縱向數據的固有特點,結合具體的實際背景對均值進行了半參數回歸建模,從模型的識別性、估計的有效性和變數選擇方面對相應的模型進行了研究。在廣義部分線性單指標模型下,給出了指標係數的截面廣義估計方程估計,並證明了當工作相關係數矩陣正確假定時,該估計是最優估計;利用正交技術分別估計了半參變係數模型下的參數向量、係數函式向量和協方差函式,使估計之間互不影響,從而提高了估計精度;當係數曲線存在變點時,基於係數曲線的一二階導數提出了變點識別方法,並給出了係數曲線的估計,證明了當噪音比較小時,該估計能保留跳的結構。對於高維的縱向數據,利用正交技術提出了一種懲罰方法用於固定效應和隨機效應的變數選擇,證明了該方法具有Oracle性質,並能通過現有算法快速實現;利用懲罰思想和內點算法,提出了一類全新的Copula函式族來刻畫變數之間的相關結構,為變數篩選服務。在實際套用方面,為了對原發膽汁性肝硬化病人進行合理分類開展精準醫療,本項目通過建立半參數混合回歸模型,將聚類問題轉化為混合回歸模型的估計問題,提出了一種相合的懲罰方法來同時確定成分的個數以及估計混合比例和回歸參數,並給出了一種疊代算法來進行無縫模型選擇和估計;為了考察電子遊戲的治療方法對6到13歲具有痙攣性偏癱的孩子的運動功能恢復的有效程度,提出了一種帶方向的多重比較檢驗方法,來自動識別6到13歲之間基於電子遊戲的治療方法能顯著提高孩子運動功能恢復的年齡段,並給出了顯著性曲線動態展示治療方法隨時間的有效程度的變化情況,為康復師和實際工作者提供了一定的幫助。在項目資助下,我們在統計學知名期刊IME, CSDA, Stat Med, TEST等期刊發表了數篇高質量學術論文,並多次參與國內外相關學術會議匯報項目研究成果。

相關詞條

熱門詞條

聯絡我們