《零膨脹數據的兩部模型及在貸款違約風險中的套用》是依託湖南大學,由王小燕擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:零膨脹數據的兩部模型及在貸款違約風險中的套用
- 項目類別:青年科學基金項目
- 項目負責人:王小燕
- 依託單位:湖南大學
中文摘要,結題摘要,
中文摘要
在管理科學、衛生經濟學等領域,常存在混合分布數據,其中有一類非常特殊,叫零膨脹數據,它的零所占比重非常大,非零值來自某一分布,比如貸款逾期天數、短期醫療支出。如何利用好大量零是分析這類數據的關鍵,兩部模型視數據來自兩個過程,既能充分挖掘零的信息,又能突出非零部分的重要性,因而備受歡迎。本項目結合現實中常見的高維性、解釋變數分組、樣本異構等三個數據特徵,將重點研究兩部模型的變數選擇。首先針對比例兩部模型穩健性差及維數困擾,擬建立U統計量下的單變數選擇,並證明大樣本性質。其次針對變數分組結構,擬提出群組解釋變數兩部模型,建立雙層變數選擇以充分考慮分組信息,證明組內和組層面的大樣本性質。再針對樣本異構性,擬提出多因變數兩部模型,用雙層變數選擇研究各模型顯著變數的異同,並證明理論性質。最後,研究這些模型在貸款違約風險中的套用。
結題摘要
如何防患並管理好信用風險對銀行的發展和貸款市場的有序進行極其重要。貸款違約天數作為能夠體現違約風險的一個重要變數,具有顯著的零膨脹特徵,即存在大量不違約的樣本單位,這使得傳統的模型無法體現零樣本的有效信息,從而導致建模的失敗。兩部模型作為處理零膨脹數據的代表,包含了兩個方程,第一個方程為典型的二分類問題,第二個方程描述非零因變數取值的過程,通常有線性回歸或者poisson回歸等。本項目採取理論和套用相結合的方式,主要研究了以下內容:(1)穩健模型變數選擇及其違約風險套用,以分位數回歸作為穩健模型的代表,用它來構建兩部模型的第二個方程,並結合Lasso方法對兩個方程分布進行風險因素識別;(2)構建了比例兩部模型的變數選擇方法,假定兩部模型兩個方程的回歸係數具有比例結構,通過對比例剩餘係數進行懲罰壓縮,以及對第一個方程的係數進行懲罰壓縮,實現比例結構和風險因素的同步識別;(3)多因變數的變數選擇方法及其套用,重點研究兩部模型的第一個方程,以LDA方法為例進行了多因變數的整合分析,分析各個方程之間的差異和同質性;(4)針對兩部模型的第一個方程,提出了基於文本先驗信息的變數選擇方法,從現有研究中挖掘文本信息用於改進風險因素的識別效果,提高對違約群體的預測準確率;(5)針對兩部模型的第一個方程,利用群組變數選擇方法,在考慮指標組結構的情況下,建立違約風險評估模型。 通過模擬分析和實證分析發現,所提出的一系列新模型在風險指標選擇和分類預測效果上都優於所對比的傳統模型,例如在內容(1)中,當數據表現出拖尾性質時,穩健模型會有更低的預測錯誤率和估計偏差,又如在內容(2)中,新模型在未增加複雜度和計算量的情況下,比傳統的逐步法兩部模型和忽略零膨脹特徵的模型具有更好的預測表現。本研究也得到了一些具有套用價值的結論,在風險管理方面可為相關部門提供一定的參考。