關聯規則
關聯規則算法是數據挖掘的十大經典算法之一,它是在 1993 年 Agrawal 提出來的,它就是從大量的歷史交易數據來挖掘出來有價值的商品或者信息的相互關係,在電商、社交等網際網路行業中廣泛地套用。商店的管理者從大量的交易數據中,發現隱藏的有價值的知識,從而最佳化規劃行銷方案、策劃廣告、或者新的分類設計。常見的一個例子就是購物籃的例子:把同時會被消費者購買的商品擺放在同一個貨架中,從而來刺激消費;例如,購買手機的顧客,可能會購買屏保,則把手機和屏保擺放一起,也就會增加商品的銷量,增加效益。
布爾型關聯規則
布爾型的關聯規則只考慮是否存在;如果發生了就為 1,沒有發生就為 0;往往,我們需要處理的數據,包含了一些真實的數字,也就是數值型的屬性值。比如,商品的價格,房子的面積,以及我們的年齡;這些都是可以用數值表示的,用戶不在關心某個值對應的知識,而是某個區間對應的感興趣的知識。
模糊關聯規則的概念
由布爾型的關聯規則的定義可知,下面給出模糊關聯規則的模糊支持度和模糊信用區間的定義,假設
s 是模糊集合 X 中的隸屬度函式,也就是說它的取值範圍就是 0 到 1。
定義1 :模糊支持數:對於任意的模糊集合集
,X 的模糊支持數 FSupport(X):
定義2 :模糊支持率:對於任意的模糊集合集
,X 的模糊支持率 FSup(X):
定義3: 模糊頻繁屬性集:如果 FSup(X)不小於用戶給定的最小支持率,那么 X 為模糊頻繁屬性集。
定義4 :模糊關聯規則:“X=>Y”的模糊支持率為 FSup(X,Y):
定義 5: 強關聯規則:如果 X 和 Y 的支持度滿足下面公式關係,那么模糊關聯規則
是一條強關聯規則。
定理1: 一個模糊候選項集存在不是頻繁的子集,那么它就不是模糊頻繁候選集。
模糊關聯規則的核心問題
通過以上定義可知道,模糊關聯規則的核心問題是:
(1) 遍歷交易的歷史資料庫,尋找模糊候選集;然後計算每個模糊候選集的支持度,然後找到那么不小於最小支持度的候選集,就是模糊頻繁候選集;通過不斷的疊代,找到所有的模糊頻繁候選集。
(2) 通過模糊頻繁集,找出來所有規則;然後計算每個規則的置信區間,然後找出來置信區間不小於最低置信區間的規則,就是強關聯規則。
模糊關聯規則的挖掘算法
算法概述
模糊關聯規則算法大致可以分為以下幾個步驟:如何確定隸屬度函式,根據隸屬度函式如何來模糊化數量型數據資料庫,如何快速和高效的挖掘模糊頻繁候選集,如何通用模糊頻繁候選集來計算出來模糊關聯規則,最後就是模糊關聯規則的解釋以及規則的表現。
隸屬度函式的確定,是關鍵,代表著對數據屬性的描敘,通常有專家建議法、推理等。模糊化事務數據就是,對原有的交易數據進行處理,通過隸屬度函式將數量型的數據轉化為算法支持的屬性,也叫數據預處理。
所有模糊的頻繁候的發現,通過疊代計算出來 1 到 k 中所有的候選集,在通過計算候選集支持度得到所有的頻繁候選集。
模糊關聯規則的發現,就是通過計算出來的所有模糊的頻繁候選集算出來所有的規則,在計算這些規則的置信區間,最後和最低置信區間相互比較,得到所有的強關聯規則。
規則說明和知識的表現:規則的說明,就是對計算出來的規則一種解釋和教育用戶如何利用這些規則,而規則的展示就涉及到了規則的互動性;這樣,計算出來的規則也就帶來經濟和社會效益。
算法流程圖
模糊關聯的流程圖如圖1所示。模糊關聯規則的主要包含以下步驟:數量型的數據的模糊化也就是隸屬度函式的確定,挖掘出來所有的頻繁候選集以及所有的強關聯規則,以及所有強關聯規則的確定,最後就是規則的解釋和知識的表現。
偽代碼
算法的主要偽代碼如下:
輸入:交易歷史數據集合
,最小支持率為 min_sup,最小信任度為 min_conf。
輸出:模糊關聯規則。
算法過程:
(1) 不論是使用硬化的方法還是使用模糊劃分的方法將數量型的數據劃分到 0到 1 的閉區間上,這樣就將原始的資料庫劃分到一個新的資料庫;其中這樣可能涉及到數據的預處理,比如刪去或者補全不完整的數據,或者刪去那些對偏離實際意義很遠的數據等。
(2) 根據定義和定理,計算所有 1 項候選集的模糊支持率,然後選擇出來那些模糊支持率不小於最小支持度的,就為所有的 1 項模糊頻繁候選集。
(3) 通過對所有的 1 項模糊頻繁候選集進行組合運算,得到所有 2 項頻繁候選集;在計算所有 2 項頻繁候選的支持模糊率,選擇那些支持率不小於最低支持率的候選集,就是 2 項頻繁集。
(4) 通過對所有的 2 項頻繁候選集進行組合運算得到所有的 3 項候選集;根據定義,我們使用 2-模糊頻繁候選集的 3 項模糊候選集。根據性質知道,如果 3項模糊候選集是頻繁的,那么它的所有子集都必須是頻繁的;那么,我們需要刪去那些子集不是頻繁的3項候選集;然後計算餘下的3-模糊候選集的模糊支持度,選出支持度不小於 min_sup 的,就是 3-模糊頻繁候選集。
(5) 從 k 為 4 這樣一直按照步驟 4 這樣疊代下去,計算出來 k 項頻繁候選集;直到 k 項頻繁為空,停止計算;這樣得到的所有的頻繁候選集,就是要求的頻繁候選集的集合。
(6) 通過所有的模糊頻繁候選集計算出來關聯規則,然後通過計算它們的信用區間,選擇出不小於給定的最小支持度 min_conf 的關聯規,即為所求的強關聯規則。