《高維時間過程型數據的聚類及變數選擇分析》是依託東北師範大學,由黃偉擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:高維時間過程型數據的聚類及變數選擇分析
- 項目類別:青年科學基金項目
- 項目負責人:黃偉
- 依託單位:東北師範大學
項目摘要,結題摘要,
項目摘要
對高維時間過臭酷凝程型數據的分析一直是生物學、醫學用於研究某個自然過程(細胞分化、癌變細胞生長)的重要手段。時間過程型數據不僅反映了各個變數在某個時間區間的變化過程,往往還帶有類結構信息。本項目研究類結構隨時間變化的高維時間過程型數據的聚類分析以及變數選擇問題。通過融合聚類和變數選擇算法對數據在整個時間區間內類頸芝結構的變化情況以及每個類中具有相似回響模式的特徵變數進行全面的評估。項目主要利用隱樹層次混合效應模型刻畫含有特殊類結構的時間過程型數據,在模型第一層中,類結構部分即類指標變數利用隨機分枝模型加以描述, 每個變數在各個分支上的回響曲線利用以B樣條為基底的線性模型加以描述;在第二層中,觀測數據通過類指示變數與模型的潛層部分相連。項目祖嘗煉最後朽匪境承通過設計一套高效快捷的MCMC算法來對模型中的參數(類結構、回響曲線參數、關鍵特徵變數)進行推斷。本項目具有重要的理論和套用價值。
結題摘要
本項目研究類結構隨時間變化的高維時間過程型數據的聚類分析以及變數選擇問題。通過融合聚類和變數選擇算法對數據在整和料凝個時間區間內類結構的變化情況以及每個類中具有相似回響模式的特徵變數進行全面的評估。項目主要利用隱樹層次混合效應模型刻畫含有特殊類結構的時間過程型數據,在模型第一紙拒謎敬層中,類結構部分即類指標變數利用隨機分枝模型加以描述, 每個變數在狼牛譽各個分支上的回響曲線利用以B樣條為基底的線性模型加以描述;在第二層中,觀測數據通過類指示變數與模型的潛層部分相連。項目最後通過設計一套高效快捷的MCMC算法來對模型中的參數(類結構、回響曲線參數、關鍵特徵變數)進行推斷。項目組將這一方法用於單細胞基因表達數據的分析中,找到了三個在小鼠受精卵分化早期起關鍵調控作用的基因,成功推斷出合理的細胞群體分化路徑,並在此基礎上發現胚胎細胞在早期分化過程中,可能在四細胞期就已完成各個細胞命運的決定。