FreeSpan ,即頻繁模式投影的序列模式挖掘,其基本思想為:利用頻繁項遞歸地將序列資料庫投影到更小的投影資料庫集中,在每個投影資料庫中生成子序列片段.這一過程對數據和待檢驗的頻繁模式集進行了分割,並且將每一次檢驗限制在與其相符合的更小的投影資料庫中.
基本介紹
- 中文名:freespan
- 外文名:FreeSpan
- 類型:算法
- 特點:快速
基本信息,過程描述,
基本信息
FreeSpan算法思想
FreeSpan ,即頻繁模式投影的序列模式挖掘,其基本思想為:利用頻繁項遞歸地將序列資料庫投影到更小的投影資料庫集中,在每個投影資料庫中生成子序列片段.這一過程對數據和待檢驗的頻繁模式集進行了分割,並且將每一次檢驗限制在與其相符合的更小的投影資料庫中.
過程描述
(1) 首先給定序列資料庫S 及最小支持度閾值ζ.
(2) 掃描序列資料庫S,找到S中的頻繁項集,並以降序排列生成f_list列表。
執行下面步驟:
根據生成的f_list列表把資料庫分成幾個不相交的子集。只包含第一個項。包含第二個項,但不包含以後的項。包含第N項,但不包含N以後的項。只包含最後一項。
b.第一遍掃描資料庫S,找出每個項及其與前一項組成的項在序列資料庫中的頻度,刪除小於最小支持度的項。
d.對生成的大於最小支持度的項遞歸的挖掘出更長頻度的序列。直至最後的投影資料庫都是最大的頻繁子集。