預言模型標記語言

預言模型標記語言

預言模型標記語言(Predictive Model Markup Language,PMML)是一種利用XML描述和存儲數據挖掘模型的標準語言,它依託XML本身特有的數據分層思想和套用模式,實現了數據挖掘中模型的可移植性。

基本介紹

  • 中文名:預言模型標記語言
  • 外文名:Predictive Model Markup Language
  • 簡稱:PMML
  • 定義:實現數據挖掘中模型的可移植性
  • 系統:計算機
  • 套用學科:計算機原理
基本信息,必要性,模型交換,模型部署,獨立性,標準化,優缺點,優點,缺點,

基本信息

美國Illinois大學的國家數據挖掘中心(National Center for Data Mining,NCDM)最早提出了PMML的思想,並於1997年7月推出了PMML的第一個版本PMML 0.7。1999年,NCDM和Angoss、Magnify、NCR、SPSS共同組成了DMG(Data Mining Group)專門負責PMML的研究與開發,並於同年的KDD(Knowledge Discovery and Data Mining)大會上正式公布了PMML 1.0版,得到了數據挖掘界的廣泛重視。隨後IBM、Microsoft、Oracle、SAS等資料庫和數據挖掘領域的著名廠商紛紛加入DMG組織,於2001年發布了PMML2.0版,2004年10月分布PMML 3.0,2009年6月發布PMML 4.0。
PMML的意義在於:“PMML幫助用戶簡便、快捷地定義預測模型並且在不同廠商的套用系統之間共享這些模型;PMML為套用系統提供了一種獨立於廠商的方法來定義預測模型,所以在不同套用系統之間交換模型時,就不存在特性問題和不兼容問題;PMML允許用戶在某廠商套用系統中所開發出的模型,使用其他廠商的套用系統對其進行可視化、分析、評價甚至是直接使用。這在以前是肯定不可能的,但是使用PMML,相容套用系統之間可以實現無縫的模型交換”。PMML 1.0隻支持決策樹和多項式回歸模型,PMML 2.0支持的數據挖掘模型擴展到了八種,分別為:決策樹模型(TreeModel)、神經網路模型(NeuralNetwork)、聚類模型(ClusterModel)、回歸模型(RegressionModel)、通用回歸模型(GeneralRegressionModel)、簡單貝葉斯模型(NaiveBayesModel)、關聯規則模型(AssociationModel)和序化挖掘模型(SequenceMiningModel),這些模型基本上包括了目前常用的所有數據挖掘技術。

必要性

模型交換

對於複雜的數據挖掘任務,往往需要運用多種數據挖掘技術,套用不同的數據挖掘工具,因而這些工具之間必須要能夠互相交換結果,才能保證整個任務的順利完成。這就需要有一個開放的數據格式支持,使得在交換結果的同時不用考慮是哪個工具產生的。

模型部署

我們面臨著一個日益開放的Internet環境,它要求在許多異構系統之間實現友好交流。從發展的眼光看,需要將商業智慧型在Internet上實施部署,PMML為此提供了基礎。由於XML是新一代的網路語言,基於
PMML的數據挖掘模型易於在Internet上部署,軟體廠商能夠更容易地將數據挖掘結果導入到其他支持這種標準的工具中。

獨立性

PMML是數據挖掘模型獨立性的需要,數據挖掘的模型應該獨立於作業系統和套用平台,雖然在不同的系統和平台中,模型的執行方法有所不同,但是模型的描述應該相同,這樣才能保證不同系統和平台上的數據挖掘工具之間的交流。XML是一種跨平台的自定義描述語言,能夠保證PMML的獨立性。

標準化

PMML是數據挖掘模型標準化的需要。就像HTML之於Internet一樣,標準化的模型描述對於數據挖掘建模十分重要,PMML使得數據挖掘成為一個開放性的行業。

優缺點

優點

(1)通用性。PMML是一種跨平台的語言,適用於幾乎所有的作業系統和套用平台。
(2)規範性。PMML是一種規範化的模型描述語言,使其可以在不同的數據挖掘工具之間,以及數據挖掘工具和其他套用系統之間交換挖掘模型。
(3)異構性。XML本身具有異構性,可以對來自於不同資料庫和套用系統中的數據進行整合。建立在XML的基礎上,PMML可以和各種異構資料庫進行數據交換,便於模型和數據之間的相互協作。
(4)獨立性。PMML使得數據挖掘模型獨立於數據挖掘工具和具體的數據,並成為數據挖掘工具外部一種存儲模型的有效方式。
(5)易用性。PMML建立的模型本身就是XML文檔,可以通過常用的文本編輯器或XML文檔編輯器進行處理。

缺點

(1)因為在建模前需要經過大量的數據轉換,所以目前PMML模型並未真正實現與數據的完全分離。
(2)PMML對模型診斷和期望的性能度量沒有規定。
(3)在真正的商業環境中,許多信息的訪問是要受到限制的,數據挖掘模型為企業提供決策支持,帶來競爭優勢,其安全性尤為重要。但是,由於PMML的開放性,本身沒有任何對於文檔內容的安全控制,外部人員很容易掌握其中的數據,所以在實際的套用中,必須藉助於其他方式來對PMML文檔進行訪問控制。

相關詞條

熱門詞條

聯絡我們