面向失衡數據集的預測分類模型研究

面向失衡數據集的預測分類模型研究

《面向失衡數據集的預測分類模型研究》是依託哈爾濱理工大學,由李鵬擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:面向失衡數據集的預測分類模型研究
  • 項目類別:青年科學基金項目
  • 項目負責人:李鵬
  • 依託單位:哈爾濱理工大學
項目摘要,結題摘要,

項目摘要

失衡數據集問題是數據挖掘技術中最具挑戰性的難點和熱點研究問題之一,其研究具有重要的理論價值和廣闊的套用前景。.本項目旨在針對失衡數據集問題進行專項研究,計畫採用預測和分類兩種思想相結合的策略,探索有效途徑來解決數據類別失衡這一難點問題。本人創造性地提出了基於分割聚類分層抽樣邏輯回歸的失衡數據集預測模型和基於聚類抽樣K近鄰核變換的失衡數據集分類模型,兩種方法從失衡數據的重採樣和算法改進兩方面同時入手,分析和研究採樣方法與核心算法之間的內在關聯性,並有針對性地對一些具體核心問題進行深入探討與研究,以提高技術層次與研究深度。本人將預測與分類兩種不同機理的方法進行融合,相互補充發揮各自的特點,形成面向失衡數據集問題的綜合解決方案。最後,在答案抽取和故障檢測兩個實際套用中檢測驗證本項目所涉及技術的具體套用效果。

結題摘要

失衡數據集(Imbalanced Data Sets, IDS)是計算機科學、經濟學、生物學以及醫學等諸多領域中普遍存在的真實觀測數據形態,它雖然反映了客觀事物的自然本質,但事實上人們往往只關心其中小類別的發生情況。許多研究已經表明,對於失衡數據直接套用一些標準分類模型,不能得到令人滿意的分類效果。幾乎所有方法在稀有類別上的分類準確性均很低,都不能將對稀有類別的識別水平整體提高到實際可以接受的程度,相關的研究仍需要進一步深入,研究人員面臨著巨大的挑戰。失衡數據集問題是數據挖掘技術中最具挑戰性的難點和熱點研究問題之一,其研究具有重要的理論價值和廣闊的套用前景。本項目針對失衡數據集問題進行了專項研究,採用預測和分類兩種思想相結合的策略,探索有效途徑來解決數據類別失衡這一難點問題。本人創造性地提出“基於分割聚類分層抽樣邏輯回歸的失衡數據集預測模型”和“基於聚類抽樣K近鄰核變換的失衡數據集分類模型”,兩種方法從失衡數據的重採樣和算法改進兩方面同時入手,分析和研究採樣方法與核心算法之間的內在關聯性,並有針對性地對一些具體核心問題進行了深入探討與研究,如簇邊界採樣方法,複雜失衡數據的樣本剪枝算法,集成學習分類算法、核變換方法以及分層抽樣下的參數補償方法等,提高了技術層次與研究深度。本人將預測與分類兩種不同機理的方法進行了融合,相互補充發揮各自的特點,形成了面向失衡數據集問題的綜合解決方案。另外,我們在研究的過程中發現對於一些面向失衡數據集的實際套用問題,心理學的一些方法和思想可以進行有效的預測。雖然這種方法並不屬於先採樣再預測分類這種傳統解決失衡數據集問題的策略,但針對一些特定的失衡數據實際問題的解決確實取得了比較好的效果。最後,我們在疾病輔助診斷、客戶流失預測、故障檢測、視頻推薦以及眾包欺詐檢測等多個實際套用中驗證本項目所涉及技術的具體套用效果。本項目共支持發表高水平學術論文24篇,其中SCI、EI檢索16篇;申報發明專利5項,培養博士研究生2名,碩士研究生5名,各項完成成果指標達到或超過任務書中承諾的預期成果。並且,我們將真實環境下的複雜失衡數據處理作為未來工作的主要研究內容,明確了今後工作的研究方向。

相關詞條

熱門詞條

聯絡我們