圖書簡介
《大數據分析與數據挖掘》綜合大數據分析與數據挖掘的理論、技術和實際案例,以豐富的產學合作實務案例,深入淺出地剖析從大數據中掏金的秘訣。全書內容涵蓋大數據分析與數據挖掘的基本概念、數據準備、大數據分析的方法與實證及相關的進階運用,並佐以R語言及例題實作,提升讀者的數據挖掘實戰能力,開拓對大數據分析的洞察視野。
隨著移動通信和行動裝置普及、物聯網和網路發展,以及雲端技術的不斷進步,現今數據產生、蒐集和儲存方式比以往更為方便。數據挖掘與大數據分析可以從海量數據中,找到值得參考的樣型或規則,轉換成有價值的信息、洞察或知識,創造更多新價值。
本書主要介紹數據挖掘與大數據分析的理論方法與實踐套用,並加入豐富的實務案例介紹,具體說明如何套用數據挖掘與大數據分析技術以解決真實問題,深入淺出地剖析從數據中掏金的秘訣。全書共分為13章,內容涵蓋數據挖掘基本概念與數據準備、數據挖掘的方法與實證、數據挖掘的進階運用;書中也提供R語言與編程實例輔以說明,使讀者更能融會貫通地套用數據挖掘方法,進而提升大數據分析和數字決策能力。
前言
1992年我到
美國威斯康星大學麥迪遜分校攻讀決策科學與作業研究博士時,發現我在新竹“清華大學”念的機率、統計、實驗設計和統計方法等課程的教科書作者竟然都是麥迪遜的教授,所以選擇統計作為副修;另一方面,我又在麥迪遜的醫療系統研究分析中心擔任研究助理,參與由Gustafson教授領導的大型研究團隊發展的“綜合醫療促進支持系統”,計畫的目的是借著提供信息、轉介服務、決策支持和社會援助等方式,幫助面對疾病和健康危機的人(如癌症和愛滋病患者)及其親友取得相關信息、尋求可利用的資源、分析決策,以及社群服務和互相扶持等。我的主要工作是分析系統所蒐集的使用數據和用戶填寫的問卷調查數據等,並在每周研究團隊的定期會議上進行匯報,通過各種可能的分析和數據探索,以證明CHESS的效益。因為我的指導教授當時只是團隊中的助理教授,所以我特別賣力分析,生怕工作不保就沒有獎學金了。有一天,研究團隊的一位成員在會議後告訴我說,我做的工作好像“數據挖掘”,他認為數據挖掘的方法將來可能會超越統計,雖然當時我覺得怎么可能有一種最近才發展的方法,可以超越已有幾百年根基的統計學,但也讓我注意到數據挖掘這個研究領域。
1996年我回到新竹“清華大學”任教,即成立“決策分析研究室”,和研究夥伴與學生們包括本書共同作者許嘉裕博士一起投入決策分析、數據挖掘和最佳化的研究和實踐工作,並通過產學合作計畫作研究,然而卻苦無合適的教材訓練學生,特別是結合實際案例的課本,因此就持續借著整理產學合作研究成果、撰寫期刊論文和指導學生論文之機,準備撰寫教科書的基礎材料。數據挖掘和大數據分析是方法論,也是實證推導模式,因此必須結合方法發展與實證研究以檢驗研究效度。決策分析研究室研究團隊與台積電、旺宏、台達電、聯發科、廣達電腦、創意電子、晶元光電、采鈺、關東鑫林、茂迪、普生、力晶、世界先進等公司建立雙贏的產學合作機制,做到學術研究貢獻能夠接連獲獎,而實際效益能夠達到合作廠商產業化的要求,作為更深一層理論研究的基礎;更有幸從2005年借調台積電三年,實際套用所發展的分析方法在企業營運中,領導研究室的學生們和工業工程處同仁們一起推動台積電“IE十大建設”並發展相關的分析技術和數字決策系統,提供數位化系統化之決策依據,而從中得到產業導師寶貴的指導和回饋,也累積實戰的經驗和心得;進而執行台灣“科技部”“IC產業同盟”暨深耕工業基礎技術計畫,並成立“清華台積電卓越製造中心”,把累積多年的實證及大數據分析技術,推廣到半導體供應鏈上、下游和其他高科技產業,藉此提升產業的決策分析和智慧型製造能力;並通過主辦“清華IC學堂”“半導體大數據分析競賽”及產學合作成果發表研討會等活動,培養具備跨界創新、團隊合作能力的“資料科學家”。因此,本書在編撰過程中一再修改更新,希望一方面能深入介紹數據挖掘與大數據分析的基礎方法和工具,另一方面則通過跨領域的實際案例和範例程式,以具體培養結合理論與實務的決策科學家。
非常感謝新竹“清華大學”和元智大學的良好學術研究環境和科學園區的地利人和,使我們可以結合理論與實務,從產業大數據和具體問題的實證中發展適用的方法、檢驗所學,再進而導向更深一層的研究。隨著問題的廣度和複雜度以及合作夥伴的階層和領域而不斷成長,這一路走來,雖然整個研究團隊一直秉持自強不息、行勝於言的精神努力提升,但也得力於產業先進和合作夥伴們的提攜協助和計畫執行過程中的指導,因此要感謝的人非常多,希望借著本書的出版能使更多讀者從中得到啟發和實際的幫助,以造福社會和產業,也算是間接回報所有關心和幫助我們的人。儘管本書經過長期的準備,但完稿階段所花費的心力遠遠超過預期,特別感謝專任助理梁婉玲編輯匯總的工作和與出版社的聯絡,減少本書錯誤的可能,以及決策分析研究室同學們一起打拚完成各項研究計畫,這也是本書各案例的論文均引用完整作者名單的原因;也感謝在“數據挖掘”課程教學中每位互動的學生,讓我們得到教學相長和調整教材的回饋建議。本書自2014年在台灣出版以來,引發學術界和產業界的廣泛迴響,成為多所大學和各大企業的指定教材。感謝北京清華大學出版社理工分社張秋玲社長和馮昕主任的支持,將全書重新編輯改版,去蕪存菁,並增添一章全新章節,使內容更加豐富完整。然而,本書疏漏之處在所難免,盼諸位領導和前輩,不吝賜教,以提升大數據分析和數字決策能力。
簡禎富許嘉裕謹識
IC產業同盟,2015冬
目錄
第1篇大數據分析與數據挖掘導論
第1章大數據分析與數據挖掘概論3
1.1前言3
1.2大數據分析的套用6
1.3數據挖掘與數字決策8
1.4數據挖掘和大數據分析架構與步驟9
1.4.1問題定義與架構10
1.4.2數據準備11
1.4.3建立挖掘模式11
1.4.4結果解釋與評估12
1.5數據挖掘的問題類型13
1.5.1分類13
1.5.2預測13
1.5.3聚類14
1.5.4關聯規則14
1.6數據挖掘模式14
1.7結論15
1.8本書架構17
問題與討論17
第2章數據與數據準備19
2.1數據取得20
2.2大數據分析的基礎:Hadoop22
2.2.1Hadoop架構22
2.2.2Hadoop分散式檔案系統23
2.2.3MapReduce24
2.3數據類型25
2.4數據尺度26
2.5數據檢查28
2.6數據探索與可視化29
2.7數據整合與清理32
2.8數據轉換36
2.8.1數據數值轉換36
2.8.2數據屬性轉換37
2.9數據歸約38
2.9.1數據維度歸約38
2.9.2數據數值歸約44
2.10數據分割46
2.11套用實例——半導體廠製造技術員人力資源管理質量提升47
2.11.1案例背景47
2.11.2數據準備47
2.12結論50
問題與討論51
第2篇數據挖掘方法與實證
第3章關聯規則55
3.1關聯規則的定義與說明55
3.2關聯規則的衡量指針57
3.3關聯規則的類型59
3.4關聯規則算法60
3.4.1Apriori算法62
3.4.2Partition算法65
3.4.3DHP算法66
3.4.4MSApriori算法68
3.4.5FPGrowth算法70
3.5多維度關聯規則75
3.6多階層關聯規則76
3.7關聯規則的套用79
3.8R語言與關聯規則分析79
3.9套用實例——電力公司配電事故定位的研究83
3.9.1案例背景83
3.9.2數據準備84
3.9.3關聯規則推導85
3.10結論88
問題與討論88
第4章決策樹分析93
4.1決策樹的建構93
4.1.1數據準備94
4.1.2決策樹的分支準則96
4.1.3決策樹修剪104
4.1.4規則提取106
4.2決策樹的算法107
4.2.1CART108
4.2.2C4.5/C5.0108
4.2.3CHAID109
4.3決策樹分類模型評估110
4.4R語言與決策樹分析112
4.4.1CART決策樹分析112
4.4.2C5.0決策樹分析114
4.4.3CHAID決策樹分析115
4.5套用實例——建構cDNA生物晶片的數據挖掘模式117
4.5.1案例背景117
4.5.2數據準備117
4.5.3生物晶片數據的決策樹構建118
4.5.4規則解釋與評估119
4.6結論120
問題與討論120
第5章人工神經網路127
5.1人工神經網路的基本結構130
5.2網路學習法132
5.3反向傳播人工神經網路134
5.3.1網路架構134
5.3.2學習算法136
5.3.3反向傳播人工神經網路步驟137
5.3.4反向傳播人工神經網路範例138
5.4自組織映射網路139
5.4.1網路架構140
5.4.2學習算法142
5.4.3SOM人工神經網路步驟143
5.4.4自組織映射圖網路範例143
5.5自適應共振理論人工神經網路146
5.5.1網路架構147
5.5.2ART1網路算法148
5.5.3適應性共振網路範例150
5.6R語言與人工神經網路152
5.6.1反向傳播人工神經網路152
5.6.2自組織映射網路154
5.6.3自適應共振理論人工神經網路155
5.7套用實例——半導體生產周期時間預測與管控158
5.7.1案例簡介158
5.7.2數據分群159
5.7.3數據配適與預測160
5.7.4信息整合與敏感度分析161
5.7.5案例小結162
5.8結論163
問題與討論163
第6章聚類分析165
6.1聚類分析法簡介165
6.1.1聚類分析的階段166
6.1.2相似度的衡量166
6.1.3聚類分析方法169
6.2層次聚類分析法170
6.3劃分聚類分析法174
6.3.1K平均法174
6.3.2K中心點法176
6.4以密度為基礎的分群算法179
6.5以模式為基礎的分群算法181
6.5.1期望最大化算法181
6.5.2自組織映射圖網路182
6.6R語言與聚類分析182
6.7套用實例——黃光機台聚類分析184
6.7.1案例簡介184
6.7.2驗證兩階段分群算法185
6.7.3案例小結187
6.8結論187
問題與討論188
第7章樸素貝葉斯分類法與貝葉斯網路190
7.1貝葉斯定理190
7.2樸素貝葉斯分類法192
7.3貝葉斯網路196
7.3.1貝葉斯網路的理論基礎196
7.3.2貝葉斯網路的不一致性修正201
7.4R語言與貝葉斯分類203
7.5套用實例——電力公司饋線事故定位系統207
7.5.1案例簡介與問題架構207
7.5.2數據整理與貝葉斯網路圖構建208
7.5.3給定貝葉斯推理網路的參數209
7.5.4驗證貝葉斯推理網路210
7.5.5案例小結210
7.6結論211
問題與討論211
第8章粗糙集理論215
8.1粗糙集理論215
8.2粗糙集理論基本概念215
8.2.1信息系統與決策表216
8.2.2等價關係216
8.2.3近似空間217
8.2.4近似集合的準確率218
8.2.5分類的準確率與屬性相依程度219
8.2.6簡化219
8.3粗糙集理論產生分類規則222
8.4粗糙集理論與其他分類方法的比較223
8.5R語言與粗糙集理論224
8.5.1決策表與等價關係225
8.5.2近似空間225
8.5.3簡化與規則推演226
8.6套用實例──TFTLCD數組事故診斷227
8.6.1案例簡介227
8.6.2分析過程227
8.6.3案例小結230
8.7結論231
問題與討論231
第9章預測與時間數據分析234
9.1回歸分析234
9.1.1回歸分析基本介紹234
9.1.2參數估計237
9.1.3回歸模型解釋與評估237
9.1.4多重回歸分析239
9.1.5共線性239
9.2邏輯回歸240
9.2.1機率與勝算240
9.2.2邏輯回歸模式240
9.3時間序列分析242
9.4時間數據的分析步驟243
9.5模式選擇與建立244
9.5.1時間序列平滑法246
9.5.2平穩型時間序列247
9.5.3無定向型時間序列251
9.5.4趨勢型、季節型與介入事件型時間序列252
9.6階次選取與參數估計254
9.7模式評估255
9.7.1擬合優度檢定255
9.7.2預測誤差衡量256
9.8R語言與時間數據分析257
9.9套用實例——半導體光罩需求預測261
9.9.1案例簡介與問題架構261
9.9.2數據準備與數據處理261
9.9.3需求波動偵測分析過程262
9.9.4案例小結263
9.10結論264
問題與討論265
第10章集成學習與支持向量機268
10.1集成學習268
10.1.1Bagging268
10.1.2Boosting269
10.2支持向量機272
10.2.1可區分情況(separablecase)272
10.2.2不可分狀況(nonseparablecase)274
10.2.3非線性分類275
10.3R語言與隨機森林集成學習模型276
10.3.1利用隨機森林進行分類276
10.3.2利用隨機森林評估變數重要性277
10.4結論278
問題與討論278
第3篇數據挖掘進階運用
第11章商業智慧型281
11.1商業智慧型概述281
11.2套用實例——交通信息預測283
11.3個案研究——人力資源數據挖掘283
11.3.1案例說明283
11.3.2分析過程284
11.3.3案例小結291
11.4套用實例——機票價格預測292
11.5個案研究——產品需求預測292
11.5.1半導體產品需求預測架構292
11.5.2分析過程297
11.5.3案例小結303
11.6結論303
問題與討論304
第12章製造智慧型305
12.1序言305
12.2WAT參數特徵提取與關聯分析307
12.2.1案例說明307
12.2.2分析過程308
12.2.3案例小結312
12.3半導體CP測試數據挖掘與晶圓圖樣型分類312
12.3.1案例背景312
12.3.2分析過程313
12.3.3案例小結318
12.4低良率事故診斷與製程關聯分析318
12.4.1案例說明318
12.4.2分析過程319
12.4.3案例小結323
12.5半導體製造管理的數據挖掘324
12.5.1案例背景324
12.5.2分析過程324
12.5.3案例小結329
12.6結論330
問題與討論331
第13章數字決策及商業分析與最佳化332
13.1決策信息系統332
13.1.1決策信息系統332
13.1.2決策信息系統的架構333
13.1.3套用實例——電性測試機台維修的決策支持系統334
13.2商業分析與最佳化339
13.2.1商業分析與最佳化339
13.2.2商業分析與最佳化的基本要素340
13.2.3商業分析與最佳化的套用341
13.3數字決策342
13.4結論343
問題與討論344
參考文獻345