大數據分析與套用實戰：統計機器學習之數據導向編程

內容簡介

本書主要介紹大數據分析與套用，包括數據驅動程式設計、數據前處理、統計機器學習基礎、無監督式學習、監督式學習、其他學習方式（集成學習、深度學習、強化學習）等6章內容。

本書特色：文字說明、程式代碼與執行結果等交叉呈現，有助於閱讀理解；提供來自不同領域的資料處理與分析範例；同時掌握數據分析兩大主流工具—— R 與 Python；凸顯第四代與第三代程式語言的不同之處。

本書讀者對象：計算機、人工智慧、大數據等相關專業的本科生、研究生，對大數據分析與套用感興趣的社會讀者，以及大數據分析與套用行業的工程技術人員。

作者簡介

鄒慶士，明志科技大學機械工程系特聘教授兼人工智慧暨數據科學研究中心主任。主要從事人工智慧與統計機器學習、博弈理論套用、演化式多目標最佳化、彈性制愚員閥造與工業控制等領域的教學、科研工作。1988年在台灣中原大學工學院取得學士學位，1990年在台灣中原大學機械工程研究所取得碩士學位，1994年在台灣科技大學取得運籌學博士學位，畢業後在台灣中華大學企業管理學系暨經營管理研究所、台灣世新大學信息管理學系暨研究所、台北商業大學信息與決策科學研究所任教，長期講授“數據科學導論”“統計機器學習與決策”“人工智慧”等課程。近年來提供大數據分析踏雅培訓與諮詢服務，主持氣象、交通、網際網路、電子商務、金融科技、智慧養殖、綠能發電、環境輻射、化工製程等跨領域大數據分析建模產學合作案例，協助從業者學習實際套用統計機器學習技術，並與兩岸多所大專院校合作開授R/Python語言數據科學講座，分享跨領域數據解析的實踐經驗，致力於培育理論與實踐兼具的跨域人才。

圖書目錄

第1章數據驅動程式設計 1

1.1 套件管理 1

1.1.1 基本套件 5

1.1.2 建議套件 6

1.1.3 貢獻套件 9

1.2 環境與輔助說明 11

1.3 R語元重臘言數據對象 17

1.3.1 向量 18

1.3.2 矩陣 22

1.3.3 數組 25

1.3.4 列表 28

1.3.5 數據集 31

1.3.6 因子 38

1.3.7 R語言原生數據對象取值 42

1.3.8 R語言衍生數據對象 49

1.4 Python語言數據對象 54

1.4.1 Python語言原生數據對象處理 54

1.4.2 Python語言衍生數據對象取值 62

1.4.3 Python語言類別變數編碼 68

1.5 向量化與隱式循環 71

1.6 編程范屑煮煮式與面向對象概念 77

1.6.1 R語言S3類別 80

1.6.2 Python語言面向對象 84

1.7 控制流程與自定義函式 89

1.7.1 控制流程 89

1.7.2 自定義函式 92

1.8 數據導入與導出 99

1.8.1 R語寒奔循鑽言數據導入及導出 99

1.8.2 Python語言數據導入及導出 101

1.9 程式調試與效率監測 105

第2章數據前處理 112

2.1 數據管理 112

2.1.1 R語言數據組織與排序 113

2.1.2 Python語言數據排序 119

2.1.3 R語言數據變形 123

2.1.4 Python語言數據變形 127

2.1.5 R語言數據清理 128

2.1.6 Python語言數據清理 151

2.2 數據摘要與匯總 154

2.2.1 摘要統計量 155

2.2.2 R語言群組與摘要 163

2.2.3 Python語言群組與摘要 172

2.3 特徵工程 183

2.3.1 特徵轉換與移除 183

2.3.2 特徵提取的主成分分析 198

2.3.3 特徵選擇 211

2.3.4 結語 216

2.4 大數據處理概念 217

2.4.1 文本數據處理 218

2.4.2 Hadoop分散式檔案系統 232

2.4.3 Spark集群計算框架 233

第3章統計機器學習基礎 237

3.1 隨機誤差模型 238

3.1.1 統計機器學習類型 243

3.1.2 過度擬合 244

3.2 模型性能評煮朽剃元量 247

3.2.1 回歸模型性能指標 247

3.2.2 分類模型性能指標 250

3.2.3 模型性能可視化 259

3.3 模型選灶享凳擇與評定 263

3.3.1 重抽樣與數據分割方法 263

3.3.2 單類模型參數調校 273

3.3.3 比較不同類的模型 287

3.4 相似性與距離 290

3.5 相關與獨立 293

3.5.1 數值變數與順序尺度類別變數 293

3.5.2 名目尺度類別變數 298

3.5.3 類別變數可視化關聯檢驗 307

第4章無監督式學習 315

4.1 數據可視化 316

4.2 關聯形態挖掘 324

4.2.1 關聯形態評估準則 324

4.2.2 線上音樂城關聯規則分析 325

4.2.3 結語 333

4.3 聚類分析 334

4.3.1 k均值聚類法 335

4.3.2 階層式聚類 346

4.3.3 密度聚類 351

4.3.4 聚類結果評估 355

4.3.5 結語 356

第5章監督式學習 357

5.1 線性回歸與分類 358

5.1.1 多元線性回歸 358

5.1.2 偏最小二乘法回歸 379

5.1.3 嶺回歸、套索回歸與彈性網罩懲罰模型 385

5.1.4 線性判別分析 392

5.1.5 邏輯回歸分類與廣義線性模型 398

5.2 非線性分類與回歸 401

5.2.1 樸素貝葉斯分類 401

5.2.2 k近鄰法分類 413

5.2.3 支持向量機分類 422

5.2.4 分類與回歸樹 445

第6章其他學習方式 479

6.1 集成學習 479

6.1.1 拔靴集成法 480

6.1.2 多模激發法 480

6.1.3 隨機森林 489

6.1.4 結語 490

6.2 深度學習 490

6.2.1 人工神經網路簡介 491

6.2.2 多層感知機 493

6.2.3 卷積神經網路 502

6.2.4 遞歸神經網路 507

6.2.5 自動編碼器 510

6.2.6 受限玻爾茲曼機 511

6.2.7 深度信念網路 513

6.2.8 深度學習參數調校 513

6.3 強化學習 516

參考文獻 521

索引 523

大數據分析與套用實戰：統計機器學習之數據導向編程

基本介紹

內容簡介

作者簡介

圖書目錄

相關詞條

熱門詞條