不確定性數據流上的頻繁項集挖掘關鍵技術研究

不確定性數據流上的頻繁項集挖掘關鍵技術研究

《不確定性數據流上的頻繁項集挖掘關鍵技術研究》是依託中央財經大學,由李海峰擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:不確定性數據流上的頻繁項集挖掘關鍵技術研究
  • 項目類別:青年科學基金項目
  • 項目負責人:李海峰
  • 依託單位:中央財經大學
項目摘要,結題摘要,

項目摘要

靜態不確定性數據的挖掘算法開銷龐大,難以套用到快速、無限且動態變化的數據流環境中。本項目將圍繞計算效率、存儲開銷、結果實用性和實際套用四個大問題展開系統研究,旨在提出數據流環境中計算資源和存儲資源受限時不確定性數據的高質量實時挖掘方法:首先建立不確定性數據頻繁項集的合理概念,研究該定義的增量式計算模型和存儲方法,採用混合遍歷方式和基於數學模型的剪枝策略實現高效實時的挖掘算法;然後提出基於存在機率的項集精簡表示方法和挖掘算法,以減少存儲開銷;進一步,探討利用參數自適應的Top-k方法實現不確定性數據挖掘的結果質量最佳化策略,採用SKYLINE方法建立頻繁項集挖掘的多目標最佳化機制;最後,重新定義不確定性數據的關聯規則,實現動態的關聯規則挖掘算法。本項目的研究可望加強對不確定性數據挖掘問題的認知,為數據挖掘基本技術的研究方向提供新思路,同時算法效率和實用性的提高可以推進信息技術在社會發展中的套用。

結題摘要

本項目對不確定性數據上的頻繁項集挖掘算法展開了全面而系統的研究工作,目前已經在不確定性數據的預處理、時間敏感數據流上的頻繁項集挖掘、閉合頻繁項集挖掘、最大頻繁項集挖掘等4個主要方面取得了進展,並在自適應頻繁項集挖掘方面和關聯規則挖掘方面有了初步的研究結論。(1)提出了基於主成分分析的不確定數據的預處理方法,該方法能夠在頻繁項集挖掘的過程中有效縮減數據的維度和規模,能夠提高數據挖掘的效率。(2)提出了不確定性數據的靜態和動態最大頻繁項集的挖掘算法,利用Chernoff Bound來構建機率支持度計算的範圍,利用數據分布的特性來近似計算機率支持度,將計算代價降低了一個數量級。(3)提出了不確定性數據流上的頻繁項集挖掘的算法,分別以滑動視窗模型和界樁模型分別實時和批處理實現頻繁項集挖掘,能夠精確的或者近似的獲取數據挖掘的結果。同時,討論了關聯規則的挖掘方法。(4)提出了數據流上基於界碑模型的最大頻繁項集挖掘算法,採用一種稱為MFIODSLT的數據結構增量的維護最大頻繁項集與部分附屬信息,能夠實現快速的項集查找和裁剪。提出了另外一種最大頻繁項集挖掘的算法,利用一種FP-FOREST的數據結構,結合已有算法對數據進行壓縮和動態維護,能夠提供挖掘的效率。提出了一種結果為False Negative的最大頻繁項集挖掘算法,利用Chernoff Bound來減少由於數據流挖掘產生的冗餘挖掘結果,大大降低了記憶體使用的代價。(5)提出了針對時間敏感數據流的頻繁項集挖掘的算法,引入了類型變化界限的概念,將項集進行動態分類,根據滑動視窗大小的變化對項集進行延遲處理,僅當項集的類型變化界限超出一定閾值的時候才進行支持度的重新計算,使得剪枝後算法的效率大大增強。 (6)提出了改進的時間敏感數據流的頻繁項集挖掘的算法,利用啟發式規則擴展類型變化界限,使得大量的冗餘計算得以忽略,從而提高算法的效率。 基於以上研究,目前共有13篇學術論文被發表和錄用,9篇論文被SCI或EI收錄。其中,1篇發表在SCI國際期刊《Knowledge-based Systems》,2篇發表在EI國際期刊《Journal of Software》和《Journal of Information & Computational Science》,2篇發表在一級期刊《計算機學報》上,4篇發表在《計算機科學》等國核心心期刊。

相關詞條

熱門詞條

聯絡我們