《超高維兩值數據稀疏性研究》是依託東北師範大學,由官國宇擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:超高維兩值數據稀疏性研究
- 項目類別:青年科學基金項目
- 項目負責人:官國宇
- 依託單位:東北師範大學
項目摘要,結題摘要,
項目摘要
超高維數據的稀疏性研究是近年來統計學和機器學習領域所關心的重要問題之一。它不僅可以克服噪聲累加、節約計算成本,而且能夠反映數據的內在聯繫和本質規律。隨著網路化與信息化的不斷進步,超高維兩值數據(如文本數據、SNP數據、購物籃數據)的大量湧現給稀疏性研究方法提出了新的挑戰。本課題將從特徵篩選和稀疏結構建模角度對超高維兩值數據的稀疏性進行研究。首先,提出基於樸素貝葉斯模型的L0正則化特徵篩選框架,剔除大量噪聲特徵,把維數降低到傳統多元分析方法可處理的範圍。然後,針對數據的信息密度不均衡性,建立含潛變數的稀疏結構層次模型,實現特徵加權與信息整合,進而提高統計模型的解釋性和估計的準確性。本課題的整體研究思路是以超高維兩值數據的分類問題為驅動,以樸素貝葉斯模型為基礎結構,以加入輔助稀疏結構信息為手段,旨在增強模型泛化能力並提高預測精度。
結題摘要
高維數據的稀疏性研究是近年來統計學領域的重要研究問題之一。在當今網路化和信息化高度發達的大數據時代,數據普遍存在超高維、價值稀疏等特點。如何有效地從高維稀疏數據中挖掘出有價值信息,並利用數據的稀疏結構進行統計推斷,是本課題的主要研究任務。本課題主要研究超高維兩值數據的稀疏性,包含兩部分內容。第一部分,針對超高維兩值協變數(即特徵)的稀疏性展開研究。以超高維兩值數據的分類問題為背景,以樸素貝葉斯模型為基礎,通過提出特徵篩選、特徵加權等方法,對稀疏信息進行提取和壓縮,以提高分類的準確性和計算效率,並從理論上給出了特徵篩選方法的相合性。漢語文本可以表示為超高維兩值數據,用兩值特徵刻畫詞在文檔中是否出現。因此該部分研究方法可以套用於漢語文本數據的分類問題,能夠節省計算時間,提高預測效率。第二部分,針對網路結構的稀疏性展開研究。網路結構常被用於刻畫樣本數據之間的相互關係,可以通過兩值稀疏的鄰接矩陣來度量,屬於典型的超高維兩值數據。該部分關心具有網路結構的分類問題。然而,網路結構數據不再滿足獨立同分布假設,傳統的統計分類方法已不再適用。因此,我們提出了基於網路結構的統計分類方法,能夠充分利用個體間的網路結構關係及其稀疏性,更加靈活、實用。一方面,給出了基於網路結構的統計分類模型的參數估計和預測方法,以及各種結構稀疏性假設下的理論結果。另一方面,社交網路數據是典型的超高維兩值數據,將基於網路結構的分類方法套用於大型社交網路數據的分類問題,提高了分類的準確率。基於網路結構的分類方法為分類問題提供了新的思路,將網路結構引入到傳統的統計分類模型中,弱化了數據的獨立同分布假設,增強了模型的泛化能力。