《過程挖掘:業務過程的發現、合規和改進》是2014年出版的圖書,作者是Wil van der Aalst。本書理清了過程挖掘涉及的核心概念,重點闡述了事件日誌獲取方法、α等控制流挖掘算法、合規性檢查方法、數據/資源等屬性挖掘方法、線上運作挖掘方法、過程挖掘項目框架以及過程挖掘典型領域案例,覆蓋了從過程發現到運作支持整個過程挖掘技術譜系,最後對過程挖掘技術進行了展望。
基本介紹
- 書名:過程挖掘:業務過程的發現、合規和改進
- 作者:Wil van der Aalst
- ISBN:9787302350859
- 裝幀:平裝
詳細信息,圖書簡介,前言,目錄,
詳細信息
王建民 聞立傑 等譯
定價:39元
印次:1-1
印刷日期:2014-6-6
圖書簡介
2011年初荷蘭埃因霍恩技術大學傑出教授、清華大學客座教授、荷蘭皇家科學和人文學院院士、歐洲科學院院士、H-index最高的歐洲計算機科學家Wil教授告訴我們,他將出版一本過程挖掘方面的書並希望再次合作1,從那時起我們就一直為這本書的中文譯本努力工作並充滿期待。
正如IEEE過程挖掘工作組在《過程挖掘宣言》中指出的:過程挖掘技術能夠從現代信息系統普遍產生的事件日誌中抽取過程知識,為相關領域套用中的過程發現、監測和改進提供了新的手段。
過程挖掘思想1995年起源於軟體工程領域,1998年被引入業務過程管理領域,是一個跨“數據挖掘”和“過程管理”領域的交叉學科。近十年來,伴隨著事件數據獲得越來越容易,過程挖掘技術快速發展,很多軟體商已經將過程挖掘功能添加到其產品套件中。
過程挖掘主要場景包括:“發現”,根據事件日誌生成模型,並不使用任何先驗信息;“符合性檢查”,將一個已知的過程模型與這個模型的事件日誌進行對比;“改進”,使用相關事件日誌來擴展或者改進現有過程模型。
過程挖掘並不限於過程發現,通過將事件數據和過程模型緊密聯繫,能用於檢查合規性、探測偏差、預測延遲、支持決策制定和輔助過程再造,給原本靜態的過程模型賦予了生機,並將現今的“大數據”置入過程上下文中。
正如IEEE過程挖掘工作組在《過程挖掘宣言》中指出的:過程挖掘技術能夠從現代信息系統普遍產生的事件日誌中抽取過程知識,為相關領域套用中的過程發現、監測和改進提供了新的手段。
過程挖掘思想1995年起源於軟體工程領域,1998年被引入業務過程管理領域,是一個跨“數據挖掘”和“過程管理”領域的交叉學科。近十年來,伴隨著事件數據獲得越來越容易,過程挖掘技術快速發展,很多軟體商已經將過程挖掘功能添加到其產品套件中。
過程挖掘主要場景包括:“發現”,根據事件日誌生成模型,並不使用任何先驗信息;“符合性檢查”,將一個已知的過程模型與這個模型的事件日誌進行對比;“改進”,使用相關事件日誌來擴展或者改進現有過程模型。
過程挖掘並不限於過程發現,通過將事件數據和過程模型緊密聯繫,能用於檢查合規性、探測偏差、預測延遲、支持決策制定和輔助過程再造,給原本靜態的過程模型賦予了生機,並將現今的“大數據”置入過程上下文中。
前言
譯 者 序
2011年初荷蘭埃因霍恩技術大學傑出教授、清華大學客座教授、荷蘭皇家科學和人文學院院士、歐洲科學院院士、H-index最高的歐洲計算機科學家Wil教授告訴我們,他將出版一本過程挖掘方面的書並希望再次合作1,從那時起我們就一直為這本書的中文譯本努力工作並充滿期待。
正如IEEE過程挖掘工作組在《過程挖掘宣言》中指出的:過程挖掘技術能夠從現代信息系統普遍產生的事件日誌中抽取過程知識,為相關領域套用中的過程發現、監測和改進提供了新的手段。
過程挖掘思想1995年起源於軟體工程領域,1998年被引入業務過程管理領域,是一個跨“數據挖掘”和“過程管理”領域的交叉學科。近十年來,伴隨著事件數據獲得越來越容易,過程挖掘技術快速發展,很多軟體商已經將過程挖掘功能添加到其產品套件中。
過程挖掘主要場景包括:“發現”,根據事件日誌生成模型,並不使用任何先驗信息;“符合性檢查”,將一個已知的過程模型與這個模型的事件日誌進行對比;“改進”,使用相關事件日誌來擴展或者改進現有過程模型。
過程挖掘並不限於過程發現,通過將事件數據和過程模型緊密聯繫,能用於檢查合規性、探測偏差、預測延遲、支持決策制定和輔助過程再造,給原本靜態的過程模型賦予了生機,並將現今的“大數據”置入過程上下文中。
本書理清了過程挖掘涉及的核心概念,重點闡述了事件日誌獲取方法、??等控制流挖掘算法、合規性檢查方法、數據/資源等屬性挖掘方法、線上運作挖掘方法、過程挖掘項目框架以及過程挖掘典型領域案例,覆蓋了從過程發現到運作支持整個過程挖掘技術譜系,最後對過程挖掘技術進行了展望。
清華大學軟體學院信息系統與工程研究所的楊和東、朱笑塵、李婕、萬明、竇蒙、沈曉明、林欣、冀付軍、王子璇等同志參加了本書的翻譯工作,在此,感謝他們的辛勤工作。
從2011年暑假我們得到書稿算起,已經兩年有餘。由於本書是過程挖掘領域的首部專著,涉及知識領域較多、組織視角獨特,為了保證譯文質量,譯者認真研究、反覆推敲,期望為讀者奉獻一個儘量準確的譯文,這或許可以作為“兩年有餘”的一個理由。
最後衷心感謝Wil教授,他不僅讓我們先睹為快,而且解答了翻譯過程中的諸多疑問。
前 言
過程挖掘為改進各種套用領域中的過程提供了一種新的方式。這項新技術主要由兩個因素驅動:一方面,越來越多的事件得以記錄,提供了關於過程歷史的詳細信息。儘管事件數據無處不在,但大多數組織機構診斷問題時還是基於主觀臆斷而不是事實;另一方面,BPM(Business Process Management,業務過程管理)和BI(Business Intelligence,商務智慧型)軟體供應商一直都在大力推動過程挖掘技術。儘管BPM和BI技術得到廣泛關注,它們與學者、顧問和軟體供應商的期望尚有距離。
過程挖掘是一門提供全套工具來洞察事實並支持過程改進的新興學科,這個新學科建立在過程模型驅動方法和數據挖掘的基礎上。然而,過程挖掘並非現有方法的簡單混合。例如,現有的數據挖掘技術主要以數據為中心,很難提供組織內端到端過程的全面理解。BI工具則聚焦於簡單的儀器盤和報表,而缺乏對商務過程進行清晰明確的洞察。BPM套件則嚴重依賴於專家建模的理想化的未來過程,而無助於企業管理者理解現行的業務過程。
本書闡述了一系列過程挖掘技術,以幫助組織揭示它們的實際業務過程。過程挖掘並不限於過程發現,通過將事件數據和過程模型緊密聯繫,能用於檢查合規性、探測偏差、預測延遲、支持決策制定和輔助過程再造。過程挖掘為原本靜態的過程模型賦予了生機,並將現今的海量數據置入過程上下文中。因此,過程改進(如Six Sigma、TQM、CPI和CPM)和合規性(如SOX和BAM等)相關的管理浪潮能夠從過程挖掘中受益。
如書中所述,過程挖掘出現於十年前[8, 19],但是它的起源卻要追溯至半個世紀以前。例如,Anil Nerode在1958年[101]提出從實例軌跡合成有限狀態機的方法,Carl Adam Petri 則在1962年[103]介紹了第一門精確捕捉並發的建模語言,還有Mark Gold在1967年[67]率先系統地探索了不同的可學習的概念。當數據挖掘在20世紀90年代開始繁榮的時候,很少有人注意到過程挖掘。直到最近,事件日誌變得無處不在,使得端到端的過程發現成為可能。自從關於過程挖掘的第一篇綜述文章於2003年[8]發表後,過程挖掘取得了長足進步。過程挖掘技術日益成熟,出現了多種支持工具。儘管最初主要聚焦於過程發現,但現今過程挖掘譜系得到了明顯的拓寬。例如,合規性檢查、多維度過程挖掘和運作支持已成為過程挖掘工具——ProM——的有機組成部分。
這是關於過程挖掘的第一本書,因此,面向的讀者群非常廣泛。本書全面概述了過程挖掘發展現狀,是為實踐者、學生和學者提供的過程挖掘技術的入門材料。一方面,本書適合於那些剛接觸該話題的新人;另一方面,本書對於重要概念也會給予嚴謹的闡述。本書力求自成體系,覆蓋了從過程發現到運作支持的整個過程挖掘譜系。因此,對於BPM或BI領域的從業者,本書也可作為一本參考手冊。
鑒於過程挖掘技術的適用性、(開源)過程挖掘軟體的可用性,以及現代信息系統中豐富的事件數據,讀者可以立即將過程挖掘技術付諸實踐。我誠摯希望您樂於閱讀本書,並著手使用那些已有的讓人興奮的過程挖掘技術。
致 謝
許多個人和機構都對本書中描述的技術和工具做出了貢獻,在此衷心感謝他們的支持、付出和貢獻。
本書源於1999年的研究項目“利用挖掘來進行過程設計:從執行日誌中獲得工作流知識”,這個項目是由本人和Ton Weijters發起的。那時,我還是美國科羅拉多大學波爾德分校的訪問學者,BETA研究院鼓勵我與TU/e(埃因霍恩技術大學)新研究組成員進行合作。經過和Ton討論,覺得他機器學習方面的知識和我在工作流管理以及Petri網方面的知識會使我們的合作受益。顯然,過程挖掘(當時我們稱之為工作流挖掘)是一個能夠將我們的專長進行結合的最合適的課題。於是就開始了這次成功的合作,感謝Ton!
自此,許多博士生開始投身於這個課題,他們是Laura Maruster、Ana Karla Alves de Medeiros、Boudewijn van Dongen、Minseok Song、Christian Günther、Anne Rozinat、Carmen Bratosin、R.P. Jagadeesh Chandra (JC) Bose、Ronny Mans、Maja Pesic、Joyce Nakatumba、Helen Schonenberg、Arya Adriansyah和Joos Buijs。我非常感謝他們的努力付出。
Ana Karla Alves de Medeiros是第一位在我的指導下致力於這個課題的博士生。她做了非常傑出的工作,她關於遺傳過程挖掘的論文獲得了ASML 2007 Promotion Prize的獎項,併入選了KNAW research school BETA優秀論文。Boudewijn van Dongen加入的時候,ProM的開發才剛剛起步,作為一個碩士生,他開發了過程挖掘工具如EMiT, 即ProM的前身,並成為一名優秀的博士生,在此期間他發明了多個過程挖掘技術。Eric Verbeek在工作流驗證方向完成了博士學位,隨後他逐步參與到過程挖掘研究以及ProM開發中來。很多人低估了像Eric這樣的學術型程式設計師的重要性。工具的開發和持續發展是科學研究的基石。Boudewijn 和 Eric是ProM的推動力量,他們的貢獻對於TU/e的過程挖掘研究是至關重要的。更重要的是他們一直助人為樂,謝謝你們!
Christian Günther 和 Anne Rozinat是2005年加入團隊的。他們對擴展過程挖掘的範圍以及提升套用水平做出了重要貢獻。Christian在顯著提高ProM性能的同時,使其更加美觀。更重要的是,他的模糊挖掘外掛程式促進了“意大利麵過程”(Spaghetti)的處理。Anne通過在ProM中加入合規性檢查以及多維度挖掘,擴大了過程挖掘的套用範圍。最重要的是他們建立了一家過程挖掘公司(Fluxicon)。Peter van den Brand是另一位發展ProM的重要人物,他搭建了ProM 6的初始框架,並在其架構開發中發揮了重要作用。他基於ProM開發經驗,建立了一家過程挖掘公司(Futura Process Intelligence)。與Peter、Christian和Anne這樣的人共事非常愉快,他們對於將研究成果轉化為商業化產品來說非常重要。我由衷希望Fluxicon和Futura Process Intelligence這兩家公司能夠持續成功發展(而不僅僅為了未來的跑車……)。
許多大學及其學者都對ProM的發展做出了貢獻,並支持我們的過程挖掘研究。我們非常感謝Technical University of Lisbon、Katholieke Universiteit Leuven、Universitat Politècnica de Catalunya、Universit?t Paderborn、University of Rostock、Humboldt-Universit?t zu Berlin、University of Calabria、Queensland University of Technology、Tsinghua University、Universit?t Innsbruck、 Ulsan National Institute of Science and Technology、Università di Bologna, Zhejiang University、Vienna University of Technology、Universit?t Ulm、Open University、Jilin University、University of Padua和University of Nancy。我還要感謝IEEE Task Force on Process Mining的成員積極推動這個方向。我們也非常感謝以下機構對於TU/e過程挖掘研究的支持:NWO、STW、EU、IOP、LOIS、BETA、SIKS、Stichting EIT Informatica Onderwijs、Pallas Athena、IBM、LaQuSo、Philips Healthcare、ESI、Jacquard、Nuffic、BPM Usergroup和WWTF。特别致謝Pallas Athena對於過程挖掘課題的推動以及與他們多個項目的合作。有超過100個機構為我們提供事件日誌,用以幫助提升過程挖掘技術。在此,我要特別提出AMC Hospital、Philips Healthcare、ASML、Ricoh、Vestia、Catharina Hospital、Thales、Océ、Rijkswaterstaat、Heusden、Harderwijk、Deloitte以及所有參加SUPER、ACSI、PoSecCo和CoSeLoG項目的機構。非常感謝他們讓我們使用他們的數據並為我們提供反饋。
不可能列出所有對ProM有貢獻的或幫助推動過程挖掘的每一個人,不過我還是要做一個嘗試,除了之前提及過的人,我還要感謝Piet Bakker、Huub de Beer、Tobias Blickle、Andrea Burattin、Riet van Buul、Toon Calders、Jorge Cardoso、Josep Carmona、Alina Chipaila、Francisco Curbera、Marlon Dumas、Schahram Dustdar、Paul Eertink、Dyon Egberts、Dirk Fahland、Diogo Ferreira、Walid Gaaloul、Stijn Goedertier、Adela Grando、Gianluigi Greco、Dolf Grünbauer、Antonella Guzzo、Kees van Hee、Joachim Herbst、Arthur ter Hofstede、John Hoogland、Ivo de Jong、Ivan Khodyrev、Thom Langerwerf、Massimiliano de Leoni、Jiafei Li、Ine van der Ligt、Zheng Liu、Niels Lohmann、Peter Hornix、Fabrizio Maggi、Jan Mendling、Frits Minderhoud、Arnold Moleman、Marco Montali、Michael zur Muehlen、Jorge Munoz-Gama、Mariska Netjes、Andriy Nikolov、Mykola Pechenizkiy、Carlos Pedrinaci、Viara Popova、Silvana Quaglini、Manfred Reichert、Hajo Reijers、Remmert Remmerts de Vries、Stefanie Rinderle-Ma、Marcello La Rosa、Michael Rosemann、Vladimir Rubin、Stefania Rusu、Eduardo Portela Santos、Natalia Sidorova、Alessandro Sperduti、Christian Stahl、Keith Swenson、Nikola Trcka、Kenny van Uden、Irene Vanderfeesten、George Varvaressos、Marc Verdonk、Sicco Verwer、Jan Vogelaar、Hans Vrins、Jianmin Wang、Teun Wagemakers、Barbara Weber、Lijie Wen、Jan Martijn van der Werf、Mathias Weske、Michael Westergaard、Moe Wynn、Bart Ydo和Marco Zapletal,感謝他們的支持。感謝所有閱讀過這本書早期草稿的人(尤其是Christian、Eric、Ton,感謝你們提出中肯的意見)。
感謝Springer-Verlag出版此書。感謝Ralf Gerstner鼓勵我編寫本書,並以非常出色的方式處理本書的出版事宜,謝謝你Ralf!
本書95%以上都是在漂亮的德國施萊登地區編寫的。除了我的學術休假期間,平時還有許多其他任務需要處理。多虧我每周能來施萊登(這裡沒有網際網路),從而可以在3個月內完成本書的編寫。本書的逐章校對主要靠美妙的塞拉芬咖啡,其他寫作時間主要靠這裡美麗的風景。
按照慣例,最後的感謝要送給最珍貴的人。衷心感謝Karin、Anne、Willem、Sjaak、Loes,在沒有我的日子裡,克服了很多困難。若沒有她們持續支持,這本書也許會花費數年的時間。
目錄
第1章 引言 1
1.1 數據爆炸 1
1.2 建模的局限性 2
1.3 過程挖掘 6
1.4 分析一個示例日誌 9
1.5 Play-In、Play-Out與Replay 14
1.6 趨勢 16
1.7 展望 18
第一部分 預 備 知 識
第2章 過程建模與分析 23
2.1 建模的藝術 23
2.2 過程模型 24
2.2.1 變遷系統 25
2.2.2 Petri網 26
2.2.3 工作流網 30
2.2.4 YAWL 31
2.2.5 BPMN 33
2.2.6 事件驅動過程鏈 35
2.2.7 因果網 36
2.3 基於模型的過程分析 41
2.3.1 驗證 41
2.3.2 性能分析 43
2.3.3 基於模型分析的局限 45
第3章 數據挖掘 46
3.1 數據挖掘技術的分類 46
3.1.1 數據集:實例與變數 46
3.1.2 有監督學習:分類與回歸 49
3.1.3 無監督學習:聚類與模式發現 50
3.2 決策樹學習 50
3.3 k-means聚類 55
3.4 關聯規則學習 57
3.5 序列和情節挖掘 60
3.5.1 序列挖掘 60
3.5.2 情節挖掘 61
3.5.3 其他方法 63
3.6 結果模型的質量 64
3.6.1 衡量分類器的表現 65
3.6.2 交叉驗證 67
3.6.3 奧卡姆剃鬚刀 69
第二部分 從事件日誌到過程模型
第4章 數據獲取 75
4.1 數據源 75
4.2 事件日誌 77
4.3 XES 85
4.4 將現實壓縮到事件日誌中 90
第5章 過程發現基礎 98
5.1 問題說明 98
5.2 一個簡單的過程發現算法 101
5.2.1 基本思想 101
5.2.2 算法 104
5.2.3 α算法的不足 107
5.2.4 考慮事務生命周期 110
5.3 重新發現過程模型 110
5.4 挑戰 113
5.4.1 表示偏好 114
5.4.2 噪聲和不完備性 116
5.4.3 4個相互競爭的質量標準 118
5.4.4 從三維現實中提取正確的二維切片 121
第6章 高級過程發現技術 123
6.1 概述 123
6.1.1 特徵1:表示偏好 124
6.1.2 特徵2:處理噪聲的能力 125
6.1.3 特徵3:完備性假設 125
6.1.4 特徵4:使用的方法 126
6.2 啟發式挖掘 127
6.2.1 再談因果網 127
6.2.2 學習依賴圖 128
6.2.3 學習分裂與合併 130
6.3 遺傳過程挖掘 132
6.4 基於區域的挖掘 135
6.4.1 學習變遷系統 135
6.4.2 使用基於狀態的區域的過程發現 138
6.4.3 使用基於語言的區域的過程發現 140
6.5 歷史沿革 143
第三部分 過程挖掘拓展
第7章 合規性檢查 149
7.1 業務對齊和審計 149
7.2 托肯重演 151
7.3 對比足跡 161
7.4 合規性檢查的其他套用 164
7.4.1 修復模型 164
7.4.2 評估過程發現算法 165
7.4.3 連線事件日誌和過程模型 165
第8章 挖掘其他維度 168
8.1 維度 168
8.2 屬性:一種總體透視 169
8.3 組織挖掘 173
8.3.1 社會網分析 174
8.3.2 發現組織結構 178
8.3.3 分析資源行為 179
8.4 時間和機率 180
8.5 決策挖掘 183
8.6 整合所有維度 186
第9章 運作支持 189
9.1 改進的過程挖掘框架 189
9.1.1 製圖學 190
9.1.2 審計 191
9.1.3 導航 192
9.2 線上過程挖掘 192
9.3 檢測 193
9.4 預測 196
9.5 推薦 200
9.6 過程挖掘譜系 202
第四部分 過程挖掘的套用
第10章 工具支持 205
10.1 商務智慧型 205
10.2 ProM 208
10.3 其他過程挖掘工具 212
10.4 展望 215
第11章 分析“寬麵條過程” 216
11.1 “寬麵條過程”的特徵 216
11.2 用例 219
11.3 方法論 220
11.3.1 階段0:計畫和調整 222
11.3.2 階段1:抽取 222
11.3.3 階段2:創建控制流模型並關聯事件日誌 222
11.3.4 階段3:創建集成的過程模型 223
11.3.5 階段4:運作支持 223
11.4 套用 223
11.4.1 每個功能領域的過程挖掘機會 223
11.4.2 每個產業的過程挖掘機會 225
11.4.3 兩個“寬麵條過程” 227
第12章 分析“意大利麵過程” 234
12.1 “意大利麵過程”的特點 234
12.2 方法 237
12.3 套用 240
12.3.1 “意大利麵過程”的過程挖掘機會 240
12.3.2 “意大利麵過程”的例子 241
第五部分 後 記
第13章 製圖與導航 249
13.1 業務過程地圖 249
13.1.1 地圖質量 249
13.1.2 聚合與抽象 250
13.1.3 無縫縮放 251
13.1.4 尺寸、顏色和布局 254
13.1.5 定製 256
13.2 過程挖掘: 業務過程的TomTom 256
13.2.1 將動態信息投射到業務過程地圖 256
13.2.2 到達時間預測 259
13.2.3 引導而不是控制 259
第14章 結語 260
14.1 過程挖掘:數據挖掘與業務過程管理之間的橋樑 260
14.2 挑戰 261
14.3 今天就開始 262