《實時流數據變係數多分類模型研究》是依託中國人民大學,由呂曉玲擔任項目負責人的面上項目。
基本介紹
- 中文名:實時流數據變係數多分類模型研究
- 項目類別:面上項目
- 項目負責人:呂曉玲
- 依託單位:中國人民大學
項目摘要,結題摘要,
項目摘要
在當前的大數據時代背景下,很多領域產生了一種新的數據形態:實時流數據。它是一個海量、高維、稀疏、實時、無限、連續、有序的數據序列。針對實時流數據的研究成為近年來機器學習與知識發現領域的熱點問題。數理統計學中的變係數模型是研究該數據類型的一個很好的工具,能夠詳細刻畫協變數與時間變數的相互關係,解釋事物隨時間演化的規律。但現有的研究成果還基本上局限在小數據/小世界的理論和算法,不能真正滿足大數據分析的需要。本項目將在梳理傳統變係數模型研究成果的基礎上,主要針對實時流數據的多分類問題,從基礎模型的構建、模型的穩定性、模型的線上學習與分散式實時算法開發等角度研究大數據時代背景下的數理統計學與信息科學相融合的分析實時流數據的變係數多分類模型的全新理論。並結合兩個大數據套用實例提出高效、具有廣泛社會套用前景與價值的操作流程。
結題摘要
本項目主要研究針對實時流數據的多分類變係數模型。主要研究內容包括,基礎模型的構建、探討模型的穩定性、開發模型的線上求解算法。我們在理論層面進行了深入的探討,提出了針對流數據的變係數支持向量機模型。針對類別可以無限擴大的選擇問題(也是一種分類模型),我們提出了有約束的選擇模型。我們將基於估計穩定性的調節參數選擇方法ESCV創新性的引入變係數模型的研究。模擬研究和實際數據分析都表明新的方法大大增加了變係數模型的穩定性。最後我們重點研究求解算法的問題,提出了加強多分類支持向量機模型的路徑解求解算法,該方法大大提高模型的求解效率和時間。此外,我們借鑑回歸分析的思想,提出基於回歸的快速稀疏多分類模型,可以快速求解大型多分類問題。除了方法的理論研究,本項目所提方法在大型文本數據以及網際網路企業用戶數據等方面都取得了非常好的實際效果。