大規模數據分析和建模:基於Spark與R

基本介紹

  • 中文名
  • 出版時間
  • 出版社
  • ISBN
內容簡介,圖書目錄,作者簡介,

內容簡介

圖書目錄

61 概述92
62 本地化94
621 管理器94
622 發行版98
63 雲端100
631 亞馬遜101
632 Databricks102
633 谷歌103
634 IBM105
635 微軟106
636 Qubole107
64 Kubernetes107
65 工具108
651 RStudio108
652 Jupyter109
653 Livy110
66 小結111
第7章 連線112
71 概述112
711 邊緣節點114
712 Spark主目錄114
72 本地模式115
73 單機模式116
74 YARN116
741 YARN客戶端117
742 YARN集群117
75 Livy118
76 Mesos120
77 Kubernetes121
78 雲模式121
79 批量模式122
710 工具123
711 多次連線123
712 故障排除124
7121 記錄日誌124
7122 Spark Submit124
7123 Windows126
713 小結126
第8章 數據127
81 概述127
82 讀取數據129
821 路徑129
822 模式130
823 記憶體131
824 列132
83 寫入數據133
84 複製數據134
85 檔案格式135
851 CSV136
852 JSON137
853 Parquet138
854 其他139
86 檔案系統140
87 存儲系統140
871 Hive141
872 Cassandra142
873 JDBC142
88 小結143
第9章 調試144
91 概述144
911 計算圖146
912 時間線148
92 配置148
921 連線設定150
922 提交設定151
923 運行時設定152
924 sparklyr設定153
93 分區156
931 隱式分區156
932 顯式分區157
94 快取158
941 檢查點159
942 記憶體159
95 重洗160
96 序列化161
97 配置檔案161
98 小結162
第10章 擴展163
101 概述163
102 H2O165
103 圖模型169
104 XGBoost173
105 深度學習176
106 基因組學179
107 空間數據181
108 故障排除183
109 小結183
第11章 分散式R185
111 概述185
112 用例187
1121 定製解析器188
1122 分區建模189
1123 格線搜尋191
1124 Web API192
1125 模擬193
113 分區194
114 分組195
115 列196
116 context參數197
117 函式198
118 程式包199
119 集群需求200
1191 安裝R200
1192 Apache Arrow201
1110 故障排除203
11101 工作節點日誌204
11102 解決逾時205
11103 檢查分區206
11104 調試工作節點206
1111 小結207
第12章 數據流208
121 概述208
122 轉換211
1221 分析212
1222 建模213
1223 管道214
1224 分散式R215
123 Kafka216
124 Shiny218
125 小結220
第13章 社區貢獻221
131 概述221
132 Spark API223
133 Spark擴展224
134 使用Scala代碼226
135 小結228
附錄A 補充參考代碼229

作者簡介

Javier Luraschi是大規模數據科學諸多庫的發明者,包括sparklyr、r2d3、pins和cloudml。
Kevin Kuo構建了機器學習庫,並領導了Kasa AI的開放保險研究。
Edgar Ruiz構建了企業級的數據解決方案工具,包括dbplot、tidypredict和modeldb。

相關詞條

熱門詞條

聯絡我們