廣義線性模型的組變數選擇及其在信用評分中的套用

項目摘要

近年來，管理科學、生物信息等領域產生了大量的高維數據，為模型選擇帶來了更大的挑戰，且在某些實際問題中，自變數間由於某種內在關係，存在著自然的分組結構，此時，使用單變數選擇方法忽略了分組結構中隱含的信息，可能會降低變數選擇的性能，甚至會誤選變數。鑒於此，本項目主要系統地研究廣義線性模型的組變數選擇方法，包括凹q範數組變數選擇法、雙層變數選擇法、稀疏拉普拉斯組變數選擇法。首先，研究僅能選擇組變數的方法，提出凹q範數組變數選擇法，解決其算法問題及證明其一致性；接著，研究既能選擇組變數又能選擇組內變數的雙層變數選擇法，解決其算法問題及證明其在單個變數和群組變數層面的Oracle性質；然後，在考慮變數間的網路結構下，提出拉普拉斯組變數選擇法，利用擴展的GCD算法解決其計算問題，證明其在稀疏的Rieze條件下的oracle性質。最後，研究這些方法在信用評分中的套用。

結題摘要

近年來，管理學、生物信息學等領域產生了大量的高維數據，高維數據有兩個共同點：一是自變數個數很大，甚至可能隨著樣本數的增加而增長；二是噪聲多，存在著許多跟因變數無關的自變數，即存在稀疏性質（sparsity）。高維模型的特殊性要求統計方法不僅能精準地提取有價值信息，而且效率要高、速度要快，這為傳統的建模與推斷帶來一系列挑戰。此外，在某些實際問題中，自變數間由於某種內在的關係，呈現出自然的分組結構，此時，使用單變數選擇方法忽略了分組結構中隱含的信息，可能會降低變數選擇的性能，甚至會誤選變數，因此就需要進行組變數選擇研究。本項目主要研究廣義線性模型的組變數選擇方法及其在信用評分中的套用，比如提出了基於lasso-logistic模型的個人信用風險預警方法，提出了帶有組結構信息的雙層變數選擇方法，提出了基於係數拉普拉斯（網路結構）Logistic模型的企業信用風險預警，提出了SGL-SVM方法及其在財務困境預測中的套用，基於多源數據融合的個人信用評分方法研究，提出了基於半監督廣義可加Logistic回歸的信用評分方法。通過這個項目的研究，取得了一定的成果，本項目共發表學術論文27篇（包含接收待刊），其中發表在Annals of Operation Research、Journal of Multivariate Analysis、Scientific reports等國際權威期刊上有16篇，發表在《管理科學學報》、《統計研究》、《中國管理科學》國核心心期刊上有11篇，其中被SCI/SSCI收錄的論文有16篇。

廣義線性模型的組變數選擇及其在信用評分中的套用

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條