基本介紹
- 中文名:R語言商業分析實戰
- 作者:[美]Dr. Umesh R. Hodeghatta Umesha Nayak
- 出版社:清華大學出版社
- 出版時間:2018年2月
- 定價:79 元
- ISBN:9787302489665
內容簡介,圖書目錄,
內容簡介
本書詳細闡述了與R語言商業分析相關的基本解決方案,主要包括商業分析簡介、R語言概述、R語言數據分析、描述性分析概述、商業分析過程與數據探索、機器學習、線性回歸分析以及邏輯回歸分析等內容。此外,本書還提供了相應的示例,以幫助讀者進一步理解相關方案的實現過程。
本書適合作為高等院校計算機及相關專業的教材和教學參考書,也可作為相關開發人員的自學教材和參考手冊。
圖書目錄
第1章 商業分析簡介 1
1.1 本書目的 3
1.2 容易混淆的術語 3
1.3 商業分析的發展動因 4
1.3.1 計算機軟體包和應用程式的增長 5
1.3.2 整合各種數據源的可行性 5
1.3.3 無限存儲和計算能力的增長 6
1.3.4 簡單易用的編程工具和平台 6
1.3.5 競爭激烈世界中的生存與發展 6
1.3.6 全球化商業的複雜性 6
1.4 商業分析的套用 6
1.4.1 市場行銷與銷售 7
1.4.2 人力資源 7
1.4.3 產品設計 7
1.4.4 服務設計 8
1.4.5 客戶服務和支持範圍 8
1.5 商業分析師的必備技能 8
1.5.1 理解商業和商業問題 8
1.5.2 理解數據分析技術和算法 9
1.5.3 具備良好的計算機編程知識 9
1.5.4 理解數據結構和數據存儲/倉儲技術 9
1.5.5 了解統計學和數學的相關概念知識 9
1.6 商業分析項目的分析過程 10
1.7 商業分析框架 11
1.8 小結 12
第2章 R語言概述 13
2.1 數據分析工具 13
2.2 R語言安裝 16
2.2.1 安裝R語言 16
2.2.2 安裝RStudio 17
2.2.3 探索RStudio界面 18
2.3 R編程基礎 19
2.3.1 賦值 20
2.3.2 創建向量 21
2.4 R語言對象類型 21
2.5 R語言的數據結構 23
2.5.1 矩陣 23
2.5.2 數組 24
2.5.3 數據框 26
2.5.4 列表 27
2.5.5 因子 28
2.6 小結 29
第3章 R語言數據分析 31
3.1 讀寫數據 31
3.1.1 從文本檔案讀取數據 32
3.1.2 從Microsoft Excel檔案讀取數據 35
3.1.3 從Web讀取數據 37
3.2 在R語言中使用控制結構 37
3.2.1 if-else 38
3.2.2 for循環 39
3.2.3 while循環 39
3.2.4 循環功能 40
3.2.5 在R語言中自編函式 47
3.3 使用R語言軟體包和庫 48
3.4 小結 49
第4章 描述性分析概述 51
4.1 描述性分析 54
4.2 總體和樣本 54
4.3 有關的統計參數 55
4.3.1 均值 55
4.3.2 中位數 57
4.3.3 眾數 59
4.3.4 全距 59
4.3.5 分位數 60
4.3.6 標準差(Standard Deviation) 61
4.3.7 方差(Variance) 64
4.3.8 R語言的summary命令 64
4.4 數據的圖形描述 65
4.4.1 R語言的plot命令 65
4.4.2 直方圖 67
4.4.3 條形圖 68
4.4.4 箱線圖 68
4.5 數據框計算 69
4.6 機率 73
4.6.1 互斥事件的機率 74
4.6.2 相互獨立事件的機率 74
4.6.3 非互斥事件機率 75
4.6.4 機率分布 75
4.7 小結 77
第5章 商業分析過程與數據探索 79
5.1 商業分析過程 79
5.1.1 第一階段:理解商業問題 79
5.1.2 第二階段:收集和整合數據 79
5.1.3 第三階段:預處理數據 80
5.1.4 第四階段:探索和可視化數據 80
5.1.5 第五階段:選擇建模技術和算法 81
5.1.6 第六階段:評估模型 81
5.1.7 第七階段:管理和審查報告 81
5.1.8 第八階段:部署模型 81
5.2 理解商業問題 82
5.3 收集和整合數據 82
5.3.1 抽樣 83
5.3.2 變數選擇 84
5.4 預處理數據 85
5.4.1 數據類型 85
5.4.2 數據準備 86
5.4.3 使用R語言進行數據預處理 87
5.5 數據探索和數據可視化 91
5.5.1 表格 92
5.5.2 匯總表 92
5.5.3 圖形 93
5.5.4 散點圖矩陣 97
5.5.5 數據轉換 101
5.6 使用建模技術和算法 102
5.6.1 描述性分析 103
5.6.2 預測分析 103
5.6.3 機器學習 103
5.7 評估模型 106
5.7.1 訓練數據分區 106
5.7.2 測試數據分區 106
5.7.3 驗證數據分區 107
5.7.4 交叉驗證 107
5.7.5 分類模型評估 108
5.7.6 回歸模型評估 111
5.8 提交管理報告和審查 112
5.8.1 描述問題 112
5.8.2 使用的數據集 112
5.8.3 執行數據清洗 112
5.8.4 創建模型的方法 112
5.8.5 模型部署前提條件 113
5.8.6 模型部署和使用 113
5.8.7 問題處理 113
5.9 部署模型 113
5.10 小結 114
第6章 監督機器學習:分類 115
6.1 什麼是分類?什麼是預測? 115
6.2 機率分類器模型 116
6.2.1 示例 117
6.2.2 R語言樸素貝葉斯分類器 118
6.2.3 樸素貝葉斯分類器的優點和局限性 119
6.3 決策樹 120
6.3.1 遞歸分割決策樹算法 121
6.3.2 信息增益 121
6.3.3 決策樹示例 123
6.3.4 決策樹歸納 124
6.3.5 樹分類規則 127
6.3.6 過擬合和欠擬合 127
6.3.7 偏差和方差(Bias and Variance) 128
6.3.8 避免過擬合誤差和確定決策樹生長的規模 129
6.4 其他分類器類型 131
6.4.1 K-最近鄰 131
6.4.2 隨機森林 132
6.5 R語言分類示例 134
6.6 小結 138
第7章 無監督機器學習 139
7.1 聚類概述 139
7.2 什麼是聚類 140
7.2.1 兩個記錄之間的測量方法 141
7.2.2 分類變數的距離度量 142
7.2.3 混合型數據的距離度量 142
7.2.4 兩個聚類之間的距離 143
7.3 層次聚類 145
7.3.1 樹狀圖 145
7.3.2 層次聚類的局限性 145
7.4 非層次聚類 146
7.4.1 k-means算法 146
7.4.2 k-means聚類的局限性 147
7.5 聚類案例研究 148
7.5.1 僅保留數據集中的相關變數 149
7.5.2 從數據集中刪除任何異常值 149
7.5.3 數據歸一化(Standardize the Data) 150
7.5.4 計算數據點之間的距離 150
7.6 關聯規則 157
7.6.1 選擇規則 158
7.6.2 關聯規則生成示例 160
7.6.3 解讀結果 161
7.7 小結 162
第8章 簡單線性回歸分析 163
8.1 概述 163
8.2 相關性 164
8.3 假設檢驗 167
8.4 簡單線性回歸分析 168
8.4.1 回歸假設 168
8.4.2 簡單線性回歸方程 168
8.4.3 R語言創建簡單回歸方程 169
8.4.4 檢驗回歸假設 171
8.4.5 結論 176
8.4.6 預測回響變數 176
8.4.7 補充說明 177
8.5 小結 178
第9章 多元線性回歸分析 179
9.1 使用多元線性回歸分析 180
9.1.1 數據 181
9.1.2 相關性 181
9.1.3 構建模型 182
9.1.4 驗證回歸假設 184
9.1.5 多重共線性 188
9.1.6 逐步多元線性回歸分析 190
9.1.7 全子集多元線性回歸分析 191
9.1.8 多元線性回歸方程 193
9.1.9 結論 193
9.2 R語言的替代方法 193
9.3 預測回響變數 194
9.4 訓練和測試模型 195
9.5 交叉驗證 196
9.6 小結 198
第10章 邏輯回歸分析 201
10.1 邏輯回歸 202
10.1.1 數據 203
10.1.2 構建模型 204
10.1.3 模型擬合驗證 207
10.1.4 一般注意事項 208
10.1.5 多重共線性 208
10.1.6 離散 209
10.1.7 邏輯回歸分析結論 209
10.2 模型訓練和測試 209
10.2.1 預測回響變數 211
10.2.2 驗證邏輯回歸模型的其他替代方法 212
10.3 多項邏輯回歸分析 213
10.4 正則化 214
10.5 小結 220
第11章 大數據分析:介紹及未來趨勢 221
11.1 大數據生態系統 222
11.2 大數據分析的未來趨勢 225
11.2.1 發展壯大的社交媒體 225
11.2.2 創建數據湖 225
11.2.3 企業用戶手中的可視化工具 225
11.2.4 規範性分析 225
11.2.5 物聯網 226
11.2.6 人工智慧 226
11.2.7 全數據處理 226
11.2.8 數據垂直套用和橫向套用 226
11.2.9 實時分析 226
11.2.10 將數據分析工具交由企業用戶使用 227
11.2.11 將解決方案從一個工具遷移到另一個工具 227
11.2.12 雲無處不在 227
11.2.13 資料庫內分析 227
11.2.14 記憶體分析 228
11.2.15 機器學習的自主服務 228
11.2.16 安全和合規性 228
11.2.17 醫療保健 228
引用 95
第4章 製作自動機器車 97
自動系統介紹 97
介紹移動機器人 99
搭建機器車 100
DIY機器人平台 100
集成的機器人平台 102
使用Pololu Zumo robot for Arduino 104
用計算機控制機器車 109
使用GPS模組導航 117
介紹地圖引擎平台 124
製作基於GPS的小車 128
製作自動機器車 130
總結 131
引用 131
第5章 在物聯網項目中添加語音技術 133
語音技術介紹 133
聲音感測器和驅動器介紹 134
語音技術的模式識別介紹 143
介紹語音和聲音模組 143
為物聯網項目增加語音控制 145
設定EasyVR shield 3 145
創建語音命令 148
給語音板布線 151
編寫Sketch程式 151
測試 157
讓IoT板說話 157
設定 157
布線 157
編寫Sketch程式 158
測試 159
讓Raspberry Pi說話 159
設定 159
編寫Python程式 162
下一步是什麼? 163
總結 163
引用 163
第6章 為物聯網項目搭建數據云 165
對雲技術的介紹 165
介紹基於雲的數據科學 166
連線IoT板到雲伺服器 167
微軟Azure IoT 167
亞馬遜AWS IoT 168
Arduino雲 168
使用微軟Azure IoT Hub 180
設定微軟Azure IoT Hub 180
註冊IoT設備 182
編寫程式 186
構建科學型雲平台 192
部署Azure機器學習 193
發布到Azure ML作為Web服務 194
構建帶有科學型數據云的IoT套用 196
總結 196
引用 197