編碼先驗約束的高維小樣本數據處理方法的研究

項目摘要

傳統的高維小樣本數據處理方法將面向知識的符號學習與面向數據的統計學習對立，因而其處理性能不高、可解釋性差。本項目結合先驗約束運用粒子群最佳化（PSO）和極端學習機（ELM）從數據層、模型層和算法層上對高維小樣本數據的處理進行研究。首先，用統計和聚類分析方法提取高維小樣本數據中蘊含的特徵分布和功能等先驗信息（約束）。其次，用多種策略將先驗約束編碼進PSO進行特徵選擇。再次，將PSO與編碼先驗約束的混合投票方法相結合建立集成ELM模型。最後，在數據和模型的基礎上，編碼先驗約束提高各ELM的性能。本項目以高維小樣本的基因表達譜數據為研究對象，在對其處理中檢驗完善提出的方法。由於編碼了問題中的先驗約束，本課題的研究不但能提高高維小樣本數據處理精度和速度，還大大增強機器學習的透明性。該課題為與機器學習有關的套用基礎研究，它的深入研究必將給智慧型信息處理等領域帶來新的發展,並促進國民經濟其它行業的發展。

結題摘要

傳統的高維小樣本數據處理方法將面向知識的符號學習與面向數據的統計學習對立，因而其處理性能不高、可解釋性差。本課題結合先驗約束運用粒子群最佳化（PSO）和極端學習機（ELM）從數據層、模型層和算法層上對高維小樣本數據的處理進行研究。本課題以高維小樣本的基因表達譜數據為研究對象，主要工作包括：（1）高維小樣本數據中先驗信息獲取方法研究；（2）基於先驗信息和PSO的高維小樣本數據特徵選擇方法研究；（3）基於PSO和差異性信息的集成ELM研究；（4）基於先驗信息和PSO的ELM研究；（5）基於確定性搜尋的混合PSO研究。本課題在基因表達譜數據處理上取得了優於經典方法的性能，主要體現在：（1）相對於經典的基因選擇方法，本課題在多個基因表達譜數據集上選出了更低冗餘的與腫瘤類別高相關的關鍵基因子集，且選出的基因具有較強的可解釋性。如在Leukemia，Colon，SRBCT，LUNG，Brain cancer，Lymphoma數據集上篩選出的關鍵基因子集大小依次僅為3，6,6,9,6,8；各種單分類器（K近鄰法、SVM、ELM）在本課題選出的基因子集上腫瘤識別準確率遠高於它們在經典方法選出的基因子集上的腫瘤識別率。（2）本課題能識別出新的與腫瘤類別相關的關鍵基因，如Leukemia數據集中基因X03934，Colon數據集中基因U37012，SRBCT數據集中基因183337，Brain cancer數據集中基因L25270等，從而為醫學臨床診斷提供理論支持。（3）相對於經典的基因表達譜數據分類方法（如SVM,MLP,K近鄰法等），基於PSO與差異性信息的集成ELM在多個基因表達譜數據集上的識別率有了大大提高，在Leukemia、SRBCT和LUNG表達譜數據集上識別率均達到100%。本課題以高維小樣本的基因表達譜數據為研究對象，通過將先驗信息編碼進基因選擇和腫瘤識別過程中，有效提高了腫瘤識別準確率並能識別出與腫瘤類別高相關的關鍵基因，為臨床上腫瘤診斷提供有力支持。本課題提出的理論方法可以直接套用於其它高維小樣本數據處理上，從而具有良好的套用前景。本課題有效地將符號學習與統計學習相結合，為高維小樣本數據的處理開闢了新的途徑，也有力地推動了智慧型信息處理的發展。

編碼先驗約束的高維小樣本數據處理方法的研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條