《結構性數據中屬性重要性評價及其統計推斷》是依託北京師範大學,由胡丹擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:結構性數據中屬性重要性評價及其統計推斷
- 依託單位:北京師範大學
- 項目負責人:胡丹
- 項目類別:青年科學基金項目
項目摘要,結題摘要,
項目摘要
結構性數據(屬性間存在時間和因果關係的數據)在自然、社會科學領域中幾乎無處不在,結構性數據的屬性重要性評價是模型構建、分析和決策的關鍵。然而,現有屬性重要性評價方法在研究中均採用屬性並行式模式,效應分析過程中結構性的遺漏直接導致了間接效應的缺失,從而使研究結果產生較大偏倚,被領域專家所質疑,亟需提出適合於結構性數據的屬性重要性評價方法。本項目針對此需求展開研究:1、結構性數據有向結構圖的構建;2、基於有向圖的結構神經網路模型和Rough-效用結構模型的構建與分析;3、結構神經網路模型和Rough-效應結構模型中的屬性重要性評價;4、結構模型中各子效應及屬性重要性度量的統計推斷。項目研究成果可為結構性數據中系統機理的揭示和客觀真實的效應評價提供理論和方法支撐;相關度量的統計推斷研究對彌補智慧型數據分析方法數理基礎薄弱的問題具有借鑑意義;而結構性數據的普遍存在使研究成果有廣泛套用前景。
結題摘要
結構性數據在各個領域中普遍存在,充分利用屬性間的結構性進行屬性的關聯性分析和重要性評價至關重要。本項目打破傳統屬性重要性評價中採用的屬性並行式模式,通過結構性神經網路模型、分層混合神經網路及模糊推理神經網路的構建,深入開展屬性關聯分析和重要性評價研究。同時從多角度展開屬性依賴度和重要性度量的統計推斷研究,首次解決了傳統數據挖掘領域中度量無法進行區間估計的問題,豐富了智慧型數據分析的理論基礎,並為智慧型數據分析和經典的統計數據分析搭建了橋樑。本項目研究基本按照研究計畫進行,主要成果為:1、首次提出了殘差型結構神經網路模型。通過殘差神經元的引入,分解和展現了輸入屬性對輸出屬性的直接效應和間接效應。在殘差型結構神經網路中,提出了基於權積法和偏導法的屬性重要性評價方法。2、首次實現了粗糙集理論中屬性依賴度和重要性度量的區間估計和顯著性檢驗。提高了依賴度和重要度的魯棒性,對相關度量統計推斷研究具有重要的參考意義。本項目分別從多項分布的極大似然估計和Kolmogorov-Smirnov匹配度檢驗兩個角度研究了依賴度和重要性的統計推斷問題。提出了依賴度固定值檢驗基礎算法(BFToDD)和基於極大似然估計與卡方匹配度檢驗的依賴度固定值檢驗算法(FToDD1),進一步得到了依賴度區間估計顯式表達式和區間估計極限定理。首次提出具有不同非零元列聯表的匹配度檢驗算法,提出基於K-S檢驗的列聯表匹配度檢驗基礎算法(EGoFTCT)。進一步地,在充分考慮列聯表行列變換對算法結果影響的基礎上,提出了列聯表匹配度檢驗最佳化算法(AGoFTCT)。通過將依賴度變換為符合條件的列聯表,提出了基於K-S檢驗的依賴度固定值檢驗算法(HToDD-ks)和依賴度域估計算法(REoDD-ks)。最後,結合屬性重要性的本質意義,提出了屬性重要性的顯著性檢驗及域估計算法(SIoID)。3、針對基於包含度定義的屬性依賴度和重要性度量,深入分析依賴度確定值與列聯表元素約束間的關係,提出了基於包含度的依賴度顯著性檢驗算法(STDDid)。4、深入研究了分層混合模糊神經網路,提出了基於Lasso函式的分層混合模糊神經網路,並基於偏導法研究了該模型下屬性的重要性評價。5、構建了簡化的模糊推理神經網路(spFINN),首次提出了輸入變數敏感性分析的spFINNSI方法,該方法對模糊神經網路中的屬性重要性評價具有重要的借鑑意義。