內容簡介
這本書主要面向計算機科學和工程專業的本科生。同時,這本書也可供IT專業數據分析師、企業決策人員和業務分析人員參考。
本書由Acharya編著,介紹了R語言作為非穩態數據分析和可視化工具的強大功能,並向學習者介紹了幾種數據挖掘算法和可視化方法。
圖書目錄
第1章R概述\\1
1.1概述1
1.1.1R是什麼1
1.1.2為什麼是R1
1.1.3R相對於其他程式語言的優勢3
1.2下載並安裝R4
1.2.1下載R4
1.2.2安裝R6
1.2.3R的主要檔案類型7
1.3集成開發環境和文本編輯器8
1.3.1R Studio8
1.3.2具有StatET外掛程式的Eclipse9
1.4R中軟體包的處理10
1.4.1R軟體包的安裝11
1.4.2準備開始的一些函式12
本章小結17
關鍵術語18
鞏固練習18
單項選擇題參考答案19
第2章開始使用R\\20
2.1概述20
2.2處理目錄20
2.2.1getwd命令20
2.2.2setwd命令21
2.2.3dir函式21
2.3R中的數據類型23
2.3.1強制類型轉換26
2.3.2引入變數和ls函式26
2.4數據探索的一些命令27
2.4.1載入內部數據集27
本章小結38
關鍵術語38
實戰練習38
大數據分析——基於R語言目錄
第3章在R中載入及處理數據\\40
3.1概述40
3.2分析數據處理的挑戰40
3.2.1數據格式41
3.2.2數據質量41
3.2.3項目範圍41
3.2.4利益方期望的輸出結果的管理41
3.3表達式、變數和函式42
3.3.1表達式42
3.3.2邏輯值42
3.3.3日期43
3.3.4變數45
3.3.5函式45
3.3.6處理數據中的文本48
3.4R中缺失值的處理50
3.5利用as操作符改變數據的結構51
3.6向量53
3.6.1順序向量54
3.6.2rep函式54
3.6.3向量訪問55
3.6.4向量名56
3.6.5向量的算術運算57
3.6.6向量循環58
3.7矩陣60
3.7.1矩陣訪問61
3.8因子65
3.8.1創建因子65
3.9列表67
3.9.1列表標籤和值68
3.9.2從列表中添加和刪除元素69
3.9.3列表的大小70
3.10一些常見的分析任務72
3.10.1探索數據集72
3.10.2數據集的條件操作72
3.10.3合併數據75
3.11變數的聚合和分組處理76
3.11.1aggregate函式76
3.11.2tapply函式76
3.12使用R進行簡單分析78
3.12.1輸入78
3.12.2描述數據結構78
3.12.3描述變數結構79
3.12.4輸出82
3.13讀取數據的方法83
3.13.1CSV和電子表格83
3.13.2從包中讀取數據86
3.13.3從Web/API中讀取數據86
3.13.4讀取一個JSON(JavaScript Object Notation)文檔88
3.13.5讀取XML檔案89
3.14數據輸入的R GUI的比較92
3.15使用R連線資料庫及商務智慧型系統94
3.15.1RODBC95
3.15.2使用MySQL和R96
3.15.3使用PostgreSQL和R96
3.15.4使用SQLite和R97
3.15.5使用JasperDB和R97
3.15.6使用Pentaho和R98
3.16案例研究: 日誌分析99
本章小結101
關鍵術語103
鞏固練習103
單項選擇題參考答案106
第4章在R中探索數據\\107
4.1概述107
4.2數據框107
4.2.1數據框訪問108
4.2.2數據框排序110
4.3用於理解數據框中數據的R函式111
4.3.1dim()函式111
4.3.2str()函式111
4.3.3summary()函式112
4.3.4names()函式112
4.3.5head()函式112
4.3.6tail()函式113
4.3.7edit()函式113
4.4載入數據框114
4.4.1從CSV檔案中讀取數據114
4.4.2獲取數據框子集115
4.4.3從TSV檔案中讀取數據115
4.4.4從表格讀取數據116
4.4.5合併數據框117
4.5探索數據117
4.6數據匯總118
4.7查找缺失值122
4.8無效值和異常值124
4.9描述性統計126
4.9.1數據全距126
4.9.2頻數126
4.9.3均值和中值127
4.9.4標準差131
4.9.5眾數132
4.10利用可視化發現數據中的問題134
4.10.1對單變數的分布進行可視化檢查135
4.10.2直方圖136
4.10.3密度圖138
4.10.4柱狀圖140
本章小結144
關鍵術語145
鞏固練習145
單項選擇題參考答案147
第5章線性回歸——使用R\\148
5.1概述148
5.2模型擬合148
5.3線性回歸149
5.3.1R中的lm函式149
5.4線性回歸的假設161
5.5驗證線性假設162
5.5.1使用散點圖162
5.5.2使用殘差與擬合圖162
5.5.3使用正態QQ圖162
5.5.4使用位置尺度圖163
5.5.5使用殘差與槓桿圖164
案例研究: 推薦引擎169
本章小結170
關鍵術語171
鞏固練習171
實戰練習172
單項選擇題參考答案172
第6章邏輯回歸\\173
6.1概述173
6.2什麼是回歸174
6.2.1為什麼要使用邏輯回歸175
6.2.2為什麼不能使用線性回歸176
6.2.3邏輯回歸的假設176
6.3廣義線性模型概述177
6.4什麼是邏輯回歸179
6.4.1邏輯回歸的使用179
6.4.2二項邏輯回歸179
6.4.3Logistic函式179
6.4.4Logit函式180
6.4.5似然函式181
6.4.6極大似然估計183
6.5二元邏輯回歸185
6.5.1二元邏輯回歸概述185
6.5.2具有單分類預測變數的二元邏輯回歸186
6.5.3三維列聯表和k維列聯表的二元邏輯回歸191
6.5.4具有連續協變數的二元邏輯回歸191
6.6診斷邏輯回歸195
6.6.1殘差195
6.6.2擬合性能測試196
6.6.3受試者工作特徵曲線196
6.7多元邏輯回歸模型197
案例研究: 客群/顧客洞察分析204
本章小結206
關鍵術語207
鞏固練習208
單項選擇題參考答案210
第7章決策樹\\211
7.1概述211
7.2什麼是決策樹211
7.3決策樹在R中的表示216
7.3.1使用party包進行表示216
7.3.2使用rpart包進行表示226
7.4決策樹學習中的問題解決方案228
7.4.1由屬性值對表示的實例228
7.4.2目標函式具有離散輸出值229
7.4.3析取描述229
7.4.4訓練數據可能包含錯誤或缺失屬性值229
7.5基本決策樹學習算法230
7.5.1ID3算法231
7.5.2哪個屬性是最好的分類器232
7.6度量特徵233
7.6.1熵度量同質性233
7.6.2信息增益——度量熵的期望約簡234
7.7決策樹學習中的假設空間搜尋236
7.8決策樹學習中的歸納偏差237
7.8.1優選偏差與限定偏差237
7.9為什麼首選短假設238
7.9.1選擇短假設的原因238
7.9.2爭論的問題238
7.10決策樹學習中的問題238
7.10.1過擬合238
7.10.2合併連續值屬性241
7.10.3選擇屬性的其他方法241
7.10.4處理具有缺失屬性值的訓練樣本242
7.10.5處理具有不同成本的屬性242
案例研究: 幫助零售商預測店內客流243
本章小結244
關鍵術語245
鞏固練習246
實戰練習247
單項選擇題參考答案248
第8章R中的時間序列\\249
8.1概述249
8.2時間序列數據250
8.2.1數據可視化的基本R函式250
8.2.2用於數據操作的基本R函式259
8.2.3時間序列線性濾波267
8.3讀取時間序列數據269
8.3.1scan()函式269
8.3.2ts()函式269
8.4繪製時間序列數據271
8.5分解時間序列數據272
8.5.1分解非季節性數據272
8.5.2分解季節性數據274
8.5.3季節性調整277
8.5.4回歸分析278
8.6使用指數平滑進行預測279
8.6.1簡單指數平滑279
8.6.2Holts指數平滑279
8.6.3HoltWinters指數平滑280
8.7ARIMA模型281
8.7.1差分時間序列282
8.7.2選擇一個候選ARIMA模型282
8.7.3使用ARIMA模型進行預測284
8.7.4自相關性和偏自相關性分析284
8.7.5診斷檢驗285
實踐任務286
案例研究: 保險欺詐檢測292
本章小結293
關鍵術語295
鞏固練習295
單項選擇題參考答案299
第9章聚類\\300
9.1概述300
9.2什麼是聚類300
9.3聚類中的基本概念301
9.3.1點、空間和距離302
9.3.2聚類策略305
9.3.3維數災難306
9.3.4向量之間的夾角307
9.4分層聚類308
9.4.1歐氏空間中的分層聚類308
9.4.2分層聚類的效率312
9.4.3控制分層聚類的其他規則313
9.4.4非歐氏空間的分層聚類314
9.5kmeans算法314
9.5.1kmeans基本原理314
9.5.2初始化kmeans集群319
9.5.3選擇k的正確值319
9.5.4Bradley、Fayyad和Reina算法319
9.5.5使用BFR算法處理數據320
9.6CURE算法321
9.6.1CURE中的初始化321
9.6.2實現CURE算法321
9.7非歐氏空間中的聚類322
9.7.1在GRGPF算法中表示集群323
9.7.2初始化聚類樹323
9.7.3在GRGPF算法中增加點323
9.7.4拆分和合併集群324
9.8流和並行數據的聚類325
9.8.1流計算模型325
9.8.2流聚類算法326
9.8.3並行環境中的聚類328
案例研究: 個性化產品推薦329
本章小結330
關鍵術語331
鞏固練習332
實戰練習333
單項選擇題參考答案339
第10章關聯規則\\340
10.1概述340
10.2頻繁項集341
10.2.1關聯規則341
10.2.2規則評估度量標準342
10.2.3蠻力法344
10.2.4兩步法344
10.2.5Apiori算法346
10.3數據結構概述350
10.3.1表示項集的集合351
10.3.2事務數據354
10.3.3關聯: 項集和規則項356
10.4挖掘算法接口358
10.4.1apriori()函式358
10.4.2eclat()函式371
10.5輔助函式372
10.5.1計算項集的支持度372
10.5.2規則推導372
10.6事務抽樣374
10.7生成人工事務數據375
10.7.1子項集、超項集、最大項集和閉項集375
10.8興趣度的其他度量378
10.9基於距離聚類事務和關聯379
案例研究: 使用戶生成的內容變得有價值381
本章小結382
關鍵術語383
鞏固練習384
實戰練習386
單項選擇題參考答案393
第11章文本挖掘\\394
11.1概述394
11.2文本挖掘的定義395
11.2.1文檔集395
11.2.2文檔395
11.2.3文檔特徵395
11.2.4領域和背景知識396
11.3文本挖掘中的一些挑戰396
11.4文本挖掘和數據挖掘396
11.5R中的文本挖掘396
11.6文本挖掘的總體架構406
11.6.1預處理任務406
11.6.2核心挖掘操作407
11.6.3表示層成分與瀏覽功能407
11.6.4精簡技術407
11.7R中文檔的預處理407
11.8核心文本挖掘操作409
11.8.1分布(比例)410
11.8.2頻繁概念集410
11.8.3近頻繁概念集410
11.8.4關聯411
11.9文本挖掘的背景知識413
11.10文本挖掘查詢語言413
11.11挖掘頻繁模式、關聯和相關性的基本概念和方法413
11.11.1基本概念414
11.11.2購物籃分析414
11.11.3關聯規則415
11.12頻繁項集、閉項集和關聯規則416
11.12.1頻繁項集416
11.12.2閉項集416
11.12.3關聯規則挖掘416
11.13頻繁項集的挖掘方法417
11.13.1Apriori算法: 發現頻繁項集417
11.13.2從頻繁項集生成關聯規則419
11.13.3提高Apriori算法的效率421
11.13.4挖掘頻繁項集的模式生長方法422
11.13.5使用垂直數據格式挖掘頻繁項集422
11.13.6挖掘閉模式和最大模式423
11.14模式評估方法424
11.14.1強規則並不一定有趣425
11.14.2從關聯分析到相關性分析425
11.14.3模式評估度量的比較426
11.15情感分析427
11.15.1情感分析的目的427
11.15.2情感分析要用到的知識427
11.15.3情感分析的輸入428
11.15.4情感分析的工作方式428
案例研究: 客戶群體的信用卡消費可以通過商業需求進行識別428
本章小結429
關鍵術語431
鞏固練習432
實戰練習434
單項選擇題參考答案436
第12章使用R實現並行計算\\437
12.1概述437
12.2R工具庫概述438
12.2.1在R中使用高性能計算的動機438
12.3HPC中使用R的時機439
12.3.1單節點中的並行計算440
12.3.2多節點的並行化支持440
12.4R對並行化的支持443
12.4.1R中對單節點並行化執行的支持443
12.4.2使用訊息傳遞接口對多個節點上的並行執行提供支持450
12.4.3使用其他分散式系統的包454
12.5R中並行包的比較461
案例研究: 銷售預測462
本章小節464
關鍵術語465
鞏固練習466
實戰練習468
單項選擇題參考答案471