規則提取

定義

規則提取，這種技術是用可理解的規則集來補充黑匣子模型卓越的預測性能。這些方法有效的打開了黑匣子，提供了對黑匣子模型作用情況的深入洞察。

從受訓模型上提取符號規則，可以為黑匣子模型添加可理解性。規則提取技術試圖打開黑匣子，生成可理解的符號描述，使之具有幾乎與模型本身一模一樣的預測力。用不可理解的黑匣子模型作為規則提取的入手點，比如支持向量機（SVM）或者神經網路，其好處是它們能夠為更為複雜的關係建立模型。

分類準則

Andrew等（1995）提出了神經網路規則提取技術的分類方法，它完全可以擴大到SVM上（Matens等，2007）；它是建立在如下準則之上的：

（1）與深層的黑匣子模型相關的提取算法的透明度。

（2）所提取的規則或者樹的表達力。

（3）神經網路的專門訓練方法。

（4）所提取規則的質量。

（5）提取算法的計算複雜性。

透明度準則考慮的是該技術對黑匣子模型的認知。分解法與黑匣子模型的內在機制緊密相關。而指導型算法則是把受訓模型看做黑匣子。這些算法不考察內在結構，而是直接提取與模型的輸入和輸出相關的規則。這些技術通常把受訓模型用作訓練樣本的標籤或者分類的評價器（人工生成），然後訓練樣本再被符號學習算法使用。這些技術背後的道理在於，它們假定受訓模型比初始數據集能夠更好地表示數據。也就是說，數據更為清潔，免於表面衝突的干擾。因為其模型被看做黑匣子，多數指導型算法都適合於從其他機器學習算法中提取規則。

所提取規則的表達力取決於用來表達規則的語言。文獻中提出了多種類型的規則，其中最主要的有命題規則、M-of-N規則和模糊規則。命題規則是如下形式的簡單含義：如果X=a，Y=b，那么類=1.M-of-N規則[如果至少M-of-N條件（C1,C2,……,CN），那么……]可以被用來表示複雜的分類概念。雖然它們的可理解性是遞減的，但是前提條件總是要么真要么假，而模糊規則不是這樣，模糊規則的例子是：如果X是低，Y是中，那么類=1，低和中是具有對應隸屬函式的模糊集。它們具有更大的靈活性，通常用語言學概念表達，讓人易於給出解釋。然而，給出的解釋因人而異，很難做到客觀。

評估準則

一般來說，人們用五條準則來評估規則提取算法：

可理解性

可理解性是人可以理解所提取規則的程度。

保真性

保真性準則是指所提取規則與它所提取的黑匣子的相仿的程度，它是分類器和提取規則在類標籤上保持一致的測試點的比例來測量。

準確性

能夠對此前不可見的情況作出準確的預測叫做準確性。

規則提取

基本介紹

定義

分類準則

評估準則

可理解性

保真性

準確性

可伸縮性

通用性

相關詞條

熱門詞條