《面向軟體行為鑑別的事件序列挖掘方法研究》是依託福建師範大學,由陳黎飛擔任項目負責人的面上項目。
基本介紹
- 中文名:面向軟體行為鑑別的事件序列挖掘方法研究
- 項目類別:面上項目
- 項目負責人:陳黎飛
- 依託單位:福建師範大學
項目摘要,結題摘要,
項目摘要
當前,計算機病毒、木馬等各種惡意軟體肆虐,嚴重危害計算機系統的安全。使用數據挖掘方法對海量軟體的行為特徵進行自動鑑別以有效檢測惡意軟體,是保障計算機安全的迫切需要。軟體的動態行為須以類屬型事件序列描述,本項目旨在面向該型序列的數據挖掘新模型和新算法研究,開發適用於軟體行為鑑別的有效方法和工具。主要研究工作包括:(1)面向大規模軟體行為事件序列挖掘的數據分析模型,該模型能全面描述軟體行為事件序列中複雜的序關係,具刻畫模糊長序列模式的能力和應對噪聲及事件局部無序關係的魯棒性;(2)軟體行為模式(事件序列簇類模式)的形式化描述及其投影聚類和分類算法;(3)事件序列簇類模式挖掘結果的有效性評價方法,並用於預測新的軟體行為類型;(4)基於事件序列挖掘的軟體行為鑑別套用系統。項目致力於以創新性的事件序列數據分析模型為基礎,創建獨具特色的軟體行為鑑別新方法,並將對序列挖掘的理論基礎研究起推動和借鑑作用。
結題摘要
事件序列(或符號序列、類屬型序列)挖掘新模型和新算法研究是數據挖掘領域的前沿課題之一,其套用前景十分廣泛。在計算機安全領域,基於數據挖掘和機器學習方法進行惡意軟體自動鑑別現已被廣泛接受,其核心是提取軟體的行為特徵並判斷其行為的性質(惡意/良性),而軟體行為須以事件序列描述。本項目以軟體機器指令序列等實際套用中的序列數據為研究對象,對申請書提出的該型數據的數據挖掘模型、聚分類算法以及簇類評價和套用研究等議題進行了廣泛、深入的研究,取得了若干成果。首先,在數據挖掘模型和算法研究方面,提出了面向簇類模式挖掘的事件序列新式向量空間模型、變階馬爾科夫模型、隱馬爾科夫模型和離散核密度估計模型,並分別基於這些模型,定義了多種序列相似度新度量,研製了有效的聚類和分類算法;其次,提出了新型聚類有效性評價內部準則、聚類算法選擇新方法,以及用於新簇類預測的概念漂移檢測算法;第三,在套用研究中,提出了檢測迷惑惡意代碼的軟體行為序列提取新方法和惡意軟體分類新方法,開發了原型套用系統。項目的研究特色在於有關機率模型方法的一系列研究,提出了基於機率模型解決事件序列簇類模式挖掘及有效性評價等關鍵問題的新型方案;特別地,項目組首次將核密度估計方法引入到離散型數據的聚類分析和分類挖掘中,建立了一套基於核估計的複雜數據機器學習機率框架,取得了良好的效果。項目組共發表研究論文38篇,其中被SCI收錄12篇,EI收錄10篇,包括發表在IJCAI、AAAI和IEEE TKDE上的3篇CCF A類學術會議或期刊論文,以及ACM CIKM、Pattern Recognition等CCF B類會議或期刊上的4篇論文;另申請國家發明專利1項,出版專著1部,獲得省級自然科學優秀論文獎和國際學術會議最佳論文獎各1項。達到預期研究目標。