高維複雜結構數據降維

《高維複雜結構數據降維》是依託北京師範大學,由趙俊龍擔任項目負責人的面上項目。

基本介紹

  • 中文名:高維複雜結構數據降維
  • 依託單位:北京師範大學
  • 項目負責人:趙俊龍
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

隨著技術進步,高維複雜結構數據的建模已經越來越普遍。在生物、醫學等領域中經常需要對矩陣(張量)值(即變數取值為矩陣或張量)高維數據建模。儘管向量值(即變數的取值為向量)高維數據已有許多降維和變數選擇方法,但是簡單將矩陣(張量)值數據拉直為向量,並使用已有的向量值數據統計方法,將破壞數據的行列結構,導致參數維數過高,估計不穩定。和向量值數據相比,高維矩陣(張量)值數據建模中,參數往往具有更複雜的結構,而許多情形的研究還很不充分。本項目將研究具有複雜結構的高維矩陣(張量)數據的降維和變數選擇方法,主要包括三個內容:(1)高維矩陣(張量)值數據回歸模型中的參數估計和假設檢驗。(2)高維矩陣(張量)值數據的穩健統計方法。(3)高維矩陣(張量)值變數的協方差及其逆矩陣的估計。本項研究具有很高的學術價值和很強的套用價值。

結題摘要

隨著信息技術的發展,在生物、醫學等領域中經常需要對矩陣(張量)值高維數據建模。與傳統向量數據不同,矩陣(張量)數據具有行列結構信息。建模過程中簡單將數據拉直成向量會丟失行列結構信息並造成變數維數過高。本項目研究複雜結構高維矩陣(張量)數據的建模問題,主要包括三個內容:(1)高維矩陣值數據回歸模型的參數估計以及影響點診斷;(2)高維矩陣值數據協方差及其逆矩陣的穩健統計;(3)高維數據若干假設檢驗問題。 本項目研究了矩陣值數據跡回歸模型中,參數的估計和變數選擇問題。通過將核範數和group lasso懲罰相結合,建立了凸的目標函式,得到了估計的相合性。在實際問題中,異常值或影響點是十分常見的。 當有多個影響點時,由於masking效應和swamping效應的存在,模型診斷是一個困難的問題。我們提出了影響點診斷的新方法MIP,有效克服了masking和swamping效應。 此外,我們研究了分類問題的有限樣本崩潰點問題,通過研究發現,經典的有限樣本崩潰點的概念並不適應於分類問題,我們提出了角度崩潰點的概念,並給出了線性和kernel分類器下崩潰點的上界。 本項目研究了高維矩陣值數據協方差矩陣的穩健估計問題。針對協方差矩陣具有非稀疏Kronecker乘積和結構。我們基於Kendall's 相關係數提出了協方差矩陣的穩健估計。其次針對相關係數矩陣具有稀疏Kronecker結構的情形,我們用類似方法,建立了相關係數的穩健估計,該估計在維數增加時具有更快的收斂速度。此外,針對高維因子模型中因子載荷矩陣具有稀疏行結構的情形,我們提出了一種新的估計方法,將協方差矩陣分為稀疏稠密子塊分別處理,所得估計具有更高的收斂速度。 本項目還研究了高維正態總體的若干假設檢驗問題。研究了協方差具有spike結構下兩正態總體均值的估計問題。研究了K個具有相同協方差矩陣的正態總體,均值是否相等的檢驗問題。研究了高維正態線性模型係數是否為零的假設檢驗問題。

相關詞條

熱門詞條

聯絡我們