《含潛變數圖模型的參數學習和結構學習》是依託長春工業大學,由徐平峰擔任項目負責人的面上項目。
基本介紹
- 中文名:含潛變數圖模型的參數學習和結構學習
- 項目類別:面上項目
- 項目負責人:徐平峰
- 依託單位:長春工業大學
項目摘要,結題摘要,
項目摘要
近年來,圖模型已成為統計學中刻畫變數間相依性的一類非常重要的模型。但對於某些問題,僅含觀測變數的圖模型複雜度較高,解釋性不強。事實上,在圖模型中恰當地引入潛變數,不僅可清晰地描述背景知識,刻畫隨機性產生的機制;而且能簡化模型降低複雜度,使模型有更好的解釋性。因此,含潛變數的圖模型被廣泛套用於各個領域。但隨著變數個數的增加,含潛變數圖模型的參數學習和結構學習方法,要么複雜度高、計算速度慢,要么缺乏相合性的證明,或者假設條件比較晦澀不利於實際套用者判斷。本項目將利用圖模型的結構信息所蘊含的條件獨立關係,給出快速算法,降低求極大似然估計的複雜度;設計高效抽樣策略,構造具有收斂性的MCMC方法,求參數的貝葉斯估計。針對結構學習問題,我們將研究含潛變數的圖模型的可識別性,利用凸子圖概念給出最簡模型的刻畫和相應判別算法。利用分解學習和局部學習策略,給出複雜度低、解釋性強、具有相合性的結構學習方法。
結題摘要
圖模型是統計學中刻畫隨機變數間相依性、條件獨立性的一類多元統計分析模型。在圖模型中恰當地引入潛變數,不僅可以更清晰地描述背景知識,還可以大大簡化模型降低複雜度,使模型有更好的解釋性,也便於理論上分析和實際操作。因而本項目研究含潛變數的圖模型。含潛變數圖模型的研究中,首要的問題是參數學習。即在已知變數間的相互結構關係時,需要估計模型的參數,找到與觀察數據擬合最好的參數。基於團集分組策略和連線樹結構,對於高斯圖模型和層次圖模型,我們給出了高效的極大似然估計的算法,並且給出了最優連線樹的算法。含潛變數圖模型的另一個重要問題是結構學習,即探索變數間的相互依賴關係。在這方面,(1)基於約束的方法我們給出了含潛變數的高斯有向無圈圖模型的結構學習算法,模擬研究顯示,新算法比傳統的RFCI算法更能準確的找出含潛變數的圖結構;(2)在變數的序已知的條件下,基於l1懲罰和核範數懲罰似然的方法,我們利用ADMM算法進行了含潛變數的高斯有向無圈圖模型的結構學習,模擬結果顯示,當樣本量大於200時,我們的方法比傳統的RFCI、PC算法、GES算法、低秩+GES方法表現更好;(3)我們基於廣義的期望模型選擇算法,進了含潛變數的高斯圖模型的結構學習研究,這種方法比傳統的EM+glasso方法速度更快,準確度更高。這些結果可以為生物信息學、機器學習等領域提供有效的工具。我們將含潛變數的圖模型套用於因果推斷領域。(1)我們研究了結果變數由於死亡而截斷時倖存者平均因果效應的推斷,給出了因果效應的邊界。 (2)利用潛變數表示因果推斷中不可觀測的協變數。在不可觀測協變數的單調性假設下,考慮了非服從隨機實驗中平均因果效應的邊界問題,給出了新的邊界。這些結構對於智慧型推理有重要的作用。