過程描述
CRISP-DM 模型為一個
KDD工程提供了一個完整的過程描述。該模型將一個KDD工程分為6個不同的,但順序並非完全不變的階段。
商業理解(business understanding)
在這第一個階段我們必須從商業的角度了解項目的要求和最終目的是什麼,並將這些目的與數據挖掘的定義以及結果結合起來。
主要工作包括:確定商業目標,發現影響結果的重要因素,從商業角度描繪客戶的首要目標,評估形勢,查找所有的資源、局限、構想以及在確定數據分析目標和項目方案時考慮到的各種其他的因素,包括風險和意外、相關術語、成本和收益等等,接下來確定數據挖掘的目標,制定項目計畫。
數據理解(data understanding)
數據理解階段開始於數據的收集工作。接下來就是熟悉數據的工作,具體如:檢測數據的量,對數據有初步的理解,探測數據中比較有趣的數據子集,進而形成對潛在信息的假設。收集原始數據,對數據進行裝載,描繪數據,並且探索數據特徵,進行簡單的特徵統計,檢驗數據的質量,包括數據的完整性和正確性,缺失值的填補等。
數據準備(data preparation)
數據準備階段涵蓋了從原始粗糙數據中構建最終數據集(將作為建模工具的分析對象)的全部工作。數據準備工作有可能被實施多次,而且其實施順序並不是預先規定好的。這一階段的任務主要包括:制表,記錄,數據變數的選擇和轉換,以及為適應建模工具而進行的數據清理等等。
根據與挖掘目標的相關性,數據質量以及技術限制,選擇作為分析使用的數據,並進一步對數據進行清理轉換,構造衍生變數,整合數據,並根據工具的要求,格式化數據。
建模(modeling)
在這一階段,各種各樣的建模方法將被加以選擇和使用,通過建造,評估模型將其參數將被校準為最為理想的值。比較典型的是,對於同一個數據挖掘的問題類型,可以有多種方法選擇使用。如果有多重技術要使用,那么在這一任務中,對於每一個要使用的技術要分別對待。一些建模方法對數據的形式有具體的要求,因此,在這一階段,重新回到數據準備階段執行某些任務有時是非常必要的。
評估(evaluation)
從數據分析的角度考慮,在這一階段中,已經建立了一個或多個高質量的模型。但在進行最終的模型部署之前,更加徹底的評估模型,回顧在構建模型過程中所執行的每一個步驟,是非常重要的,這樣可以確保這些模型是否達到了企業的目標。一個關鍵的評價指標就是看,是否仍然有一些重要的企業問題還沒有被充分地加以注意和考慮。在這一階段結束之時,有關數據挖掘結果的使用應達成一致的決定。
部署(deployment)
部署,即將其發現的結果以及過程組織成為可讀文本形式。模型的創建並不是項目的最終目的。儘管建模是為了增加更多有關於數據的信息,但這些信息仍然需要以一種客戶能夠使用的方式被組織和呈現。這經常涉及到一個組織在處理某些決策過程中,如在決定有關網頁的實時人員或者行銷資料庫的重複得分時,擁有一個“活”的模型。
根據需求的不同,部署階段可以是僅僅像寫一份報告那樣簡單,也可以像在企業中進行可重複的數據挖掘程式那樣複雜。在許多案例中,往往是客戶而不是數據分析師來執行部署階段。然而,儘管數據分析師不需要處理部署階段的工作,對於客戶而言,預先了解需要執行的活動從而正確的使用已構建的模型是非常重要的。
說明
事實上,就方法學而言,CRISP-DM並不是什麼新觀念,本質來看就是在分析套用中提出問題、分析問題和解決問題的過程。而可貴之處在於其提綱挈領的特性,非常適合工程管理,適合大規模定製,以至CRISP-DM如今已經成為事實上的行業標準,“調查顯示,50%以上的數據挖掘工具採用的都是CRISP-DM的數據挖掘流程"。