定義
規則提取,這種技術是用可理解的規則集來補充黑匣子模型卓越的預測性能。這些方法有效的打開了黑匣子,提供了對黑匣子模型作用情況的深入洞察。
從受訓模型上提取符號規則,可以為黑匣子模型添加可理解性。規則提取技術試圖打開黑匣子,生成可理解的符號描述,使之具有幾乎與模型本身一模一樣的預測力。用不可理解的黑匣子模型作為規則提取的入手點,比如支持向量機(SVM)或者
神經網路,其好處是它們能夠為更為複雜的關係建立
模型。
分類準則
Andrew等(1995)提出了神經網路規則提取技術的分類方法,它完全可以擴大到
SVM上(Matens等,2007);它是建立在如下準則之上的:
(4)所提取規則的質量。
透明度準則考慮的是該技術對黑匣子模型的認知。分解法與黑匣子模型的內在機制緊密相關。而指導型算法則是把受訓模型看做黑匣子。這些算法不考察內在結構,而是直接提取與模型的輸入和輸出相關的規則。這些技術通常把受訓模型用作訓練樣本的標籤或者分類的評價器(人工生成),然後訓練樣本再被符號學習算法使用。這些技術背後的道理在於,它們假定受訓模型比初始數據集能夠更好地表示數據。也就是說,數據更為清潔,免於表面衝突的干擾。因為其模型被看做黑匣子,多數指導型算法都適合於從其他機器學習算法中提取規則。
所提取規則的表達力取決於用來表達規則的語言。文獻中提出了多種類型的規則,其中最主要的有命題規則、M-of-N規則和
模糊規則。命題規則是如下形式的簡單含義:如果X=a,Y=b,那么類=1.M-of-N規則[如果至少M-of-N條件(C1,C2,……,CN),那么……]可以被用來表示複雜的分類概念。雖然它們的可理解性是遞減的,但是前提條件總是要么真要么假,而模糊規則不是這樣,模糊規則的例子是:如果X是低,Y是中,那么類=1,低和中是具有對應隸屬函式的模糊集。它們具有更大的靈活性,通常用語言學概念表達,讓人易於給出解釋。然而,給出的解釋因人而異,很難做到客觀。
評估準則
一般來說,人們用五條準則來評估規則提取算法:
可理解性
可理解性是人可以理解所提取規則的程度。
保真性
保真性準則是指所提取規則與它所提取的黑匣子的相仿的程度,它是分類器和提取規則在類標籤上保持一致的測試點的比例來測量。
準確性
能夠對此前不可見的情況作出準確的預測叫做準確性。
可伸縮性
可伸縮性特指模型能夠處理大輸入空間和大數據集。
通用性
通用性是指這個方法要求採用特殊訓練法或者對模型架有所限制的程度。