卡方自動互動檢測

卡方自動互動檢測

卡方自動互動檢測法(chi-squared automatic interaction detector, CHAID)最早由Kass於1980年提出,是一個用來發現變數之間關係的工具。CHAID可用於預測(類似回歸分析,CHAID最初被稱為XAID)以及分類,並用於檢測變數之間的相互作用。

基本介紹

  • 中文名:卡方自動互動檢測
  • 外文名:CHi-squared Automatic Interaction Detection
  • 簡稱:CHAID
  • 提出者:戈登V.卡斯
  • 時間:1980年
  • 主要套用:醫學領域
基本概念,CHAID決策樹,CHAID原理,CHAID的特點,

基本概念

卡方自動互動檢測法(chi-squared automatic interaction detector, CHAID)最早由Kass於1980年提出,是一個用來發現變數之間關係的工具,是一種基於調整後的顯著性檢驗(邦費羅尼檢驗)決策樹技術。其核心思想是:根據給定的反應變數和解釋變數對樣本進行最優分割,按照卡方檢驗的顯著性進行多元列聯表的自動判斷分組。利用卡方自動互動檢測法可以快速、有效地挖掘出主要的影響因素,它不僅可以處理非線性和高度相關的數據,而且可以將缺失值考慮在內,能克服傳統的參數檢驗方法在這些方面的限制。
在實踐中,CHAID經常使用在直銷的背景下,選擇消費者群體,並預測他們的反應,一些變數如何影響其他變數,而其他早期套用是在醫學和精神病學的研究領域。

CHAID決策樹

CHAID分析構建了一個預測模型,或樹,以幫助確定給定因變數,變數如何最好地合來解釋結果。CHAID分析,名義,有序和連續數據可以使用,在連續預測類別被分成大致相等的若干觀測。CHAID對每個分類預測創建了交叉表,直到達到最好的結果,無法繼續分類為止。在CHAID技術中,我們可以直觀地看到在樹的分割變數和相關因子之間的關係。決策樹或分類樹的展開,始於確定作為根節點的目標變數或因變數。 CHAID分析將目標變數分割成兩個或兩個以上的類被稱為根節點,或者父節點,然後使用統計算法將節點分為子節點。不同於回歸分析,CHAID技術並不要求數據是常態分配。
和其他決策樹一樣,CHAID的優勢是它的結果是非常直觀的易於理解的。由於默認情況下CHAID採用多路分割,需要相當大的樣本量,來有效地開展工作,而小樣本組受訪者可以迅速分為太小了的組,而無法可靠的分析。
在形式上,CHAID非常直觀,它輸出的是一個樹狀的圖形。它以因變數為節點,對每個自變數進行分類,計算分類的卡方值。如果幾個變數的分類均顯著,則比較他們的顯著度大小,然後選擇最顯著的分類法作為子節點。CHAID可以自動歸併自變數中的類別,使之顯著性達到最大。
CHAID決策樹的構成:
在CHAID分析中,以下是決策樹的要素:
(1)根節點:根節點包含因變數或目標變數。例如,CHAID使用於,銀行根據年齡,收入,信用卡等,來預測信用卡風險。在這個例子中,信用卡風險是目標變數,其餘變數是預測變數。
(2)父節點:該算法將目標變數分割成兩個或多個分類。這些分類被稱為父節點或者初始節點。在銀行的例子中,父節點是高,中,低三個分類。
(3)子節點:CHAID分析樹中獨立變數分類低於父節點的分類被稱為子節點。
(4)終端節點:CHAID分析樹最後一個分類被稱為終端節點。 CHAID分析樹中,主要的影響變數排在前面,次要的排在後面。因此,它被稱為終端節點。

CHAID原理

(1)利用卡方自動互動檢測法分析健康自評及其影響因素檢測。
卡方自動互動檢測法的分類過程是:首先選定分類的反應變數,然後用解釋變數與反應變數進行交叉分類,產生一系列二維分類表,分別計算二維分類表的χ2值,比較P值的大小,以P值最小的二維表作為最佳初始分類表,在最佳二維分類表的基礎上繼續使用解釋變數對反應變數進行分類,重複上述過程直到P值大於設定的有統計意義的α值為止。
為了防止模型的過度擬合,可以將分析數據隨機分成兩部分,一部分為訓練樣本,另一部分為檢驗樣本,兩者所占比例通常為70%和30%,先用訓練樣本建立樹形模型,再利用檢驗樣本對所建模型進行修正。對修正後的模型計算Risk統計量,該統計量用於評價樹形模型預測的準確程度(Risk統計量越小,表明用該樹形模型進行預測的準確程度越高),當反應變數為分類變數時,Risk統計量為錯分例數與總例數之比。
(2)利用接受者工作特徵曲線(receiver operating characte ristic curve,ROC曲線)下面積對卡方自動互動檢測法的分析結果進行評價。
ROC曲線被廣泛用於醫學診斷試驗性能的評價。通過改變診斷界值,獲得多對假陽性率和真陽性率,以前者為橫坐標,後者為縱坐標,繪製ROC曲線,計算與比較ROC曲線下的面積,可以檢測方法的診斷價值大小。其面積的取值範圍為0.50~1.00,完全無價值的診斷試驗面積為0.50,完全理想的診斷試驗面積為1.00,一般認為面積在0.50~0.70 之間表示診斷價值較低,在0.70~0.90 之間表示診斷價值為中等,0.90以上表示診斷價值較高。

CHAID的特點

對於變數較多、分類較複雜的分類或等級數據,卡方自動互動檢測法比一般的交叉列聯表分析更有效。相對於logistic回歸等參數檢驗方法,卡方自動互動檢測法的分析過程可以顯示出變數之間相互作用的方式,能夠具體分析到某變數在各亞群中的作用方式。卡方自動互動檢測法要求解釋變數為分類變數或等級變數,因此在進行分析前,必須先對變數進行整理分類;卡方自動互動檢測法對反應變數要求相對較寬,可以為任意類型的變數,特別是當反應變數為連續性變數時,可以不受資料多變數常態分配的限制,這也是卡方自動互動檢測法優於傳統參數檢驗方法(如回歸分析、ANOVA等)的一個方面。另外,在套用卡方自動互動檢測法解決問題的時候,由於解釋變數眾多且各解釋變數自身又有多個類別,使最終生成的樹可能非常龐大,對樹的適當修剪將成為要解決的關鍵性問題。

相關詞條

熱門詞條

聯絡我們