基於稀疏先驗的網路數據的結構學習

基於稀疏先驗的網路數據的結構學習

《基於稀疏先驗的網路數據的結構學習》是依託西北大學,由張海擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於稀疏先驗的網路數據的結構學習
  • 項目類別:面上項目
  • 項目負責人:張海
  • 依託單位:西北大學
項目摘要,結題摘要,

項目摘要

隨著科技的發展,各個學科均產生海量數據,如何從數據中提取有用信息為統計學和機器學習提出了挑戰。網路作為一種有效的可視化數據方法,同樣也為從數據中提取信息提供了新的途徑。研究表明,真實網路不同於隨機網路,真實網路是Scale Free的,即真實網路中有重要節點存在,具有Hub。本項目針對真實網路建模、統計推斷開展研究。首先研究具有Hub和有重疊社區的隨機塊模型,研究其模型的正態漸進性及高維統計分析;其次,針對具有組結構的稀疏正則化方法開展研究,研究基於非凸正則化方法的組變數選擇,給出組變數選擇高維統計性質分析,研究組變數個數隨著樣本個數增加而增加非漸近理論,研究修正的快速求解算法;最後,將先驗信息和圖模型相結合,開展網路的結構學習。研究基於無標度先驗的Ising模型研究,研究具有屬性信息的高斯圖模型研究,研究具有先驗信息混合模型研究。項目的開展可為網路數據建模及統計推斷提供有力工具。

結題摘要

網路分析為從數據中提取結構信息新途徑。本項目開展了稀疏性方法及基於稀疏先驗的網路結構特徵學習等工作。具體如下:(1)提出了無標度網路的結構估計方法。在正則化框架下,通過Log和l1複合的懲罰函式引入網路結構先驗。在算法方面,給出了問題求解的坐標下降算法, 並討論了算法的收斂性。在社區隨機塊模型框架下, 從總體矩陣的估計誤差, 錯誤聚類率, 連線機率矩陣的估計誤差這三個方面給出了兩種隨機譜聚類算法對應的非漸近誤差界。(2)提出了求解變數組結構的Folded-Concave正則化的Group LLA算法, 並證明了當初值為Group Lasso時, Group LLA算法兩步疊代可以得到具有強Oracle性質的解, 且一旦找到Oracle解, 算法就會收斂. (3)開展了基於AMP 的L1/2正則化方法研究,採用Belief Propagation 算法的思想構造了改進的Half 閾值疊代算法, 並證明所提算法至多需要有限步就能精確估計稀疏向量。 進一步,通過稀疏信號重建驗證了幾種重要的非凸正則化方法的基於AMP 改進的閾值疊代算法具有強的信號重建和相變能力。提出了適用於凸及非凸正則化方法的具有隱私保護的稀疏分類學習算法。(4)提出了具有社區特徵的動態網路的估計方法。 在正則化框架下,利用Fused lasso懲罰函式融合每個時間節點對應的數據信息,並通過對網路中邊對應的參數施以不同的懲罰從而使所得網路具有明顯的社區結構。我們給出了模型理論上的解釋,並給出問題求解的ADMM算法。 將所提方法套用於PM2.5數據估計城市之間的PM2.5污染網路以及社區,所得結果具有一定的可解釋性。(5)提出了具有協變數的有向圖模型。在算法方面,基於有向無環約束,給出了問題求解的坐標下降算法。在理論方面,在節點次序已知的情形下,證明了估計的高維變數選擇相合性。 (6)研究了分散式的特徵提取和變數選擇問題。提出分散式非凸正則化方法,基於ADMM 算法給出分散式非凸正則化算法,證明了算法的收斂性。 算法通過相鄰處理器之間完成信息互動,其變數選擇結果與數據集不分割時利用非凸正則化相同。

相關詞條

熱門詞條

聯絡我們