R語言機器學習(2018年機械工業出版社出版的圖書)

R語言機器學習(2018年機械工業出版社出版的圖書)

本詞條是多義詞,共2個義項
更多義項 ▼ 收起列表 ▲

《R語言機器學習》是一本2018年出版的圖書,由機械工業出版社出版

基本介紹

  • 中文名:R語言機器學習
  • 作者:(印度)卡西克·拉瑪蘇布蘭馬尼安
  • 出版時間:2018年
  • 出版社:機械工業出版社
  • ISBN:9787111595915
  • 類別:計算機圖書
  • 開本:16 開
  • 裝幀:平裝-膠訂
內容簡介,作者簡介,圖書目錄,

內容簡介

本書講解的是在R語言平台上使用大數據技術構建可擴展機器學習模型的新技術成果。它全面展示了如何採用機器學習算法在原始數據的基礎上構建機器學習模型。本書還能讓那些希望利用ApacheHadoop、Hive、Pig和Spark來實現可擴展機器學習模型的讀者從中受益。

作者簡介

Karthik Ramasubramanian 就職於Hike Messenger,從事商業分析和數據科學方面的工作。他以前在Snapdeal 任職,負責關於客戶增長和定價分析的核心統計模型。在加入 Snapdeal 之前,他曾作為中央資料庫團隊的一員,負責管理 Reckitt Benckiser(RB)全球業務套用的數據倉庫。他在可擴展的機器學習領域具有豐富的經驗,專長包括複雜的圖網路和自學習神經網路。
Abhishek Singh 是美國第二大的人壽保險供應商 Prudential Financial公司的高級數據科學家。他在數據科學方面擁有豐富的行業和學術經驗,涵蓋諮詢、教學和金融服務。他曾經在 Deloitte Advisory 領導了針對美國銀行的監管風險、信用風險和資產負債表模型化需求的風險分析項目。目前,他正在為 Prudential 的人壽保險業務開發可擴展的機器學習算法。

圖書目錄

譯者序
關於作者
關於技術審稿人
致謝
第1章 機器學習和R語言入門1
1.1 了解發展歷程2
1.1.1 統計學習2
1.1.2 機器學習2
1.1.3 人工智慧3
1.1.4 數據挖掘3
1.1.5 數據科學4
1.2 機率與統計5
1.2.1 計數和機率的定義5
1.2.2 事件和關係7
1.2.3 隨機性、機率和分布8
1.2.4 置信區間和假設檢驗9
1.3 R語言入門13
1.3.1 基本組成部分13
1.3.2 R 語言的數據結構14
1.3.3 子集處理15
1.3.4 函式和Apply系列17
1.4 機器學習過程工作流19
1.4.1 計畫19
1.4.2 探索19
1.4.3 構建20
1.4.4 評估20
1.5 其他技術20
1.6 小結21
1.7 參考資料21
第2章 數據準備和探索22
2.1 規劃數據收集23
2.1.1 變數類型23
2.1.2 數據格式24
2.1.3 數據源29
2.2 初始數據分析30
2.2.1 初步印象30
2.2.2 把多個數據源組織到一起32
2.2.3 整理數據34
2.2.4 補充更多信息36
2.2.5 重塑37
2.3 探索性數據分析38
2.3.1 摘要統計量38
2.3.2 矩41
2.4 案例研究:信用卡欺詐46
2.4.1 數據導入46
2.4.2 數據變換47
2.4.3 數據探索48
2.5 小結49
2.6 參考資料49
第3章 抽樣與重抽樣技術50
3.1 介紹抽樣技術50
3.2 抽樣的術語51
3.2.1 樣本51
3.2.2 抽樣分布52
3.2.3 總群體的均值和方差52
3.2.4 樣本均值和方差52
3.2.5 匯總的均值和方差52
3.2.6 抽樣點53
3.2.7 抽樣誤差53
3.2.8 抽樣率53
3.2.9 抽樣偏誤53
3.2.10 無放回的抽樣53
3.2.11 有放回的抽樣54
3.3 信用卡欺詐:總群體的統計量54
3.3.1 數據描述54
3.3.2 總群體的均值55
3.3.3 總群體的方差55
3.3.4 匯總的均值和方差55
3.4 抽樣在業務上的意義58
3.4.1 抽樣的特徵59
3.4.2 抽樣的缺點59
3.5 機率和非機率抽樣59
3.5.1 非機率抽樣的類型60
3.6 關於抽樣分布的統計理論61
3.6.1 大數定律61
3.6.2 中心極限定理63
3.7 機率抽樣技術66
3.7.1 總群體的統計量66
3.7.2 簡單隨機抽樣69
3.7.3 系統性隨機抽樣74
3.7.4 分層隨機抽樣77
3.7.5 聚類抽樣82
3.7.6 自助抽樣86
3.8 蒙特卡羅方法:接受-拒絕91
3.9 通過抽樣節省計算開銷的定性分析93
3.10 小結94
第4章 R語言裡的數據可視化95
4.1 ggplot2組件包簡介96
4.2 世界經濟發展指標97
4.3 折線圖97
4.4 堆疊柱狀圖102
4.5 散點圖106
4.6 箱形圖107
4.7 直方圖和密度圖109
4.8 餅圖113
4.9 相關圖114
4.10 熱點圖116
4.11 氣泡圖117
4.12 瀑布圖120
4.13 系統樹圖122
4.14 關鍵字雲124
4.15 桑基圖125
4.16 時間序列圖127
4.17 佇列圖128
4.18 空間圖130
4.19 小結133
4.20 參考資料133
第5章 特徵工程135
5.1 特徵工程簡介136
5.1.1 過濾器方法137
5.1.2 包裝器方法137
5.1.3 嵌入式方法138
5.2 了解工作數據138
5.2.1 數據摘要139
5.2.2 因變數的屬性139
5.2.3 特徵的可用性:連續型或分類型141
5.2.4 設定數據的假設142
5.3 特徵排名143
5.4 變數子集的選擇146
5.4.1 過濾器方法146
5.4.2 包裝器方法149
5.4.3 嵌入式方法154
5.5 降維158
5.6 特徵工程核對清單161
5.7 小結162
5.8 參考資料162
第6章 機器學習理論和實踐163
6.1 機器學習的類型165
6.1.1 有監督學習166
6.1.2 無監督學習166
6.1.3 半監督學習166
6.1.4 強化學習166
6.2 機器學習算法的類別167
6.3 實際環境的數據集170
6.3.1 房產售價170
6.3.2 購買偏好170
6.3.3 Twitter訂閱和文章171
6.3.4 乳腺癌171
6.3.5 購物籃172
6.3.6 亞馬遜美食評論172
6.4 回歸分析173
6.5 相關分析174
6.5.1 線性回歸176
6.5.2 簡單線性回歸177
6.5.3 多元線性回歸180
6.5.4 模型診斷:線性回歸182
6.5.5 多項回歸191
6.5.6 邏輯回歸194
6.5.7 洛基(logit)變換195
6.5.8 幾率比196
6.5.9 模型診斷:邏輯回歸202
6.5.10 多項邏輯回歸209
6.5.11 廣義線性模型212
6.5.12 結論213
6.6 支持向量機213
6.6.1 線性SVM214
6.6.2 二元SVM分類模型215
6.6.3 多類別SVM217
6.6.4 結論218
6.7 決策樹218
6.7.1 決策樹的類型219
6.7.2 決策指標220
6.7.3 決策樹學習方法222
6.7.4 集成樹235
6.7.5 結論240
6.8 樸素貝葉斯方法241
6.8.1 條件機率241
6.8.2 貝葉斯定理241
6.8.3 先驗機率242
6.8.4 後驗機率242
6.8.5 似然和邊際似然242
6.8.6 樸素貝葉斯方法242
6.8.7 結論246
6.9 聚類分析246
6.9.1 聚類方法簡介247
6.9.2 聚類算法247
6.9.3 內部評估255
6.9.4 外部評估256
6.9.5 結論257
6.10 關聯規則挖掘258
6.10.1 關聯概念簡介258
6.10.2 規則挖掘算法259
6.10.3 推薦算法265
6.10.4 結論270
6.11 人工神經網路271
6.11.1 人類認知學習271
6.11.2 感知器272
6.11.3 Sigmoid神經元274
6.11.4 神經網路的體系架構275
6.11.5 有監督與無監督的神經網路276
6.11.6 神經網路的學習算法277
6.11.7 前饋反向傳播278
6.11.8 深度學習284
6.11.9 結論289
6.12 文本挖掘方法289
6.12.1 文本挖掘簡介290
6.12.2 文本摘要291
6.12.3 TF-IDF292
6.12.4 詞性標註294
6.12.5 關鍵字雲297
6.12.6 文本分析:Microsoft Cognitive Services297
6.12.7 結論305
6.13 線上機器學習算法305
6.13.1 模糊C均值聚類306
6.13.2 結論308
6.14 構建模型的核對清單309
6.15 小結309
6.16 參考資料309
第7章 機器學習模型的評估311
7.1 數據集311
7.1.1 房產售價312
7.1.2 購買偏好313
7.2 模型性能和評估入門314
7.3 模型性能評估的目標315
7.4 總群體的穩定性指數316
7.5 連續型輸出的模型評估320
7.5.1 平均誤差321
7.5.2 均方根誤差323
7.5.3 R2324
7.6 離散型輸出的模型評估326
7.6.1 分類矩陣327
7.6.2 靈敏度和特異性330
7.6.3 ROC曲線下的面積331
7.7 機率技術334
7.7.1 K 折交叉驗證334
7.7.2 自助抽樣336
7.8 Kappa誤差指標337
7.9 小結340
7.10 參考資料341
第8章 模型性能改進342
8.1 機器學習和統計建模343
8.2 Caret組件包概述344
8.3 超參數簡介346
8.4 超參數最佳化348
8.4.1 人工搜尋349
8.4.2 人工格線搜尋351
8.4.3 自動格線搜尋353
8.4.4 搜尋354
8.4.5 隨機搜尋356
8.4.6 自定義搜尋357
8.5 偏誤和方差權衡359
8.5.1 裝袋或自助聚合363
8.5.2 增強363
8.6 集成學習簡介363
8.6.1 投票集成364
8.6.2 集成學習中的高級方法365
8.7 在R語言裡演示集成技術367
8.7.1 裝袋樹367
8.7.2 決策樹的梯度增強369
8.7.3 混合knn和rpart372
8.7.4 利用caretEnemble進行堆疊374
8.8 高級主題:機器學習模型的貝葉斯最佳化377
8.9 小結381
8.10 參考資料382
第9章 可擴展機器學習和相關技術384
9.1 分散式處理和存儲384
9.1.1 Google File System385
9.1.2 MapReduce386
9.1.3 R語言裡的並行執行386
9.2 Hadoop生態系統389
9.2.1 MapReduce390
9.2.2 Hive393
9.2.3 Apache Pig396
9.2.4 HBase399
9.2.5 Spark400
9.3 在R語言環境下用 Spark進行機器學習401
9.3.1 設定環境變數401
9.3.2 初始化 Spark 會話402
9.3.3 載入數據並運行預處理402
9.3.4 創建 SparkDataFrame403
9.3.5 構建機器學習模型403
9.3.6 對測試數據進行預測404
9.3.7 終止 SparkR 會話404
9.4 在R語言裡利用 H2O 進行機器學習405
9.4.1 安裝組件包406
9.4.2 H2O集群的初始化406
9.4.3 在R語言裡使用H2O的深度學習演示407
9.5 小結410
9.6 參考資料411

相關詞條

熱門詞條

聯絡我們