《基於資訊理論的事件重要性分析與在大數據分析中的套用》是依託清華大學,由樊平毅擔任項目負責人的面上項目。
基本介紹
- 中文名:基於資訊理論的事件重要性分析與在大數據分析中的套用
- 依託單位:清華大學
- 項目負責人:樊平毅
- 項目類別:面上項目
項目摘要,結題摘要,
項目摘要
本課題基於資訊理論、估計理論和統計學習危尋旬理論等重點研究大數據分析技術中關於“事件重要性”相關的理論與算法,分析海量數據中異常事件檢測、數據降維存儲以及數槳斷匪茅據之間內在關聯度等,旨在提出新的理論架構,從理論層面解讀大數據分析蘭厚協與套用的策略,給出評估方案。具體研究內容包括:定義新院姜采的“信息重要性”度量,用於小機率事件檢測;結合統計估計理論和“信息重要性”度量,討論高維數據集降維壓縮與解壓縮恢復及其高效處理算法;結合統計學習理論,研討基於數據之間內在關聯度,提出新的數據關係分析方法。該研究屬於交叉前沿課題,在信息理論的拓展和大數戀習擊譽據工程套用上均有重要意義。
結題摘要
本課題基於資訊理論、估計理論和統計學習理論等重點研究大數據分析技術中關於“事件重要性”相關的理論與算法。鞏櫃 主要研究內容包括: (1)針對可利用離散變數描述的事件,提出了新的事件重要性度量,從度量的數學形式上,可以看作香農信息熵的推廣,並且附加了一定的語義信息特徵,認為小機率事件更加重要;討論了其數學性質,並證明了它推廣了關於信息熵的Fadeev準則的第4條,將迎騙棕對獨立隨機變數的求和等式變為不等式; (2)針對可利用連續隨機變數描述的事件,給出了微分形式的事件重要性度量,並將它套用於大數據分析中,給出了事件重要性損失,柯爾莫格若夫統計量與數據樣本之間的理論關係式,完善了事件重要性在大數據分析中的理論體系; (3)提出了新的非參數形式的事件重要性度量,討論了在數據壓縮和數據傳輸中的套用,得到了類似於香農資訊理論中信源編碼和信道編碼可獨立設計的結果; 這些研究屬於交叉前沿課題,在信息理論的拓展和大數據工程套用上均有重要意義。