大規模數據分析和建模：基於Spark與R

基本介紹

中文名：
出版時間：
出版社：
ISBN：

內容簡介,圖書目錄,作者簡介,

內容簡介

圖書目錄

61 概述92

62 本地化94

621 管理器94

622 發行版98

63 雲端100

631 亞馬遜101

632 Databricks102

633 谷歌103

634 IBM105

635 微軟106

636 Qubole107

64 Kubernetes107

65 工具108

651 RStudio108

652 Jupyter109

653 Livy110

66 小結111

第7章連線112

71 概述112

711 邊緣節點114

712 Spark主目錄114

72 本地模式115

73 單機模式116

74 YARN116

741 YARN客戶端117

742 YARN集群117

75 Livy118

76 Mesos120

77 Kubernetes121

78 雲模式121

79 批量模式122

710 工具123

711 多次連線123

712 故障排除124

7121 記錄日誌124

7122 Spark Submit124

7123 Windows126

713 小結126

第8章數據127

81 概述127

82 讀取數據129

821 路徑129

822 模式130

823 記憶體131

824 列132

83 寫入數據133

84 複製數據134

85 檔案格式135

851 CSV136

852 JSON137

853 Parquet138

854 其他139

86 檔案系統140

87 存儲系統140

871 Hive141

872 Cassandra142

873 JDBC142

88 小結143

第9章調試144

91 概述144

911 計算圖146

912 時間線148

92 配置148

921 連線設定150

922 提交設定151

923 運行時設定152

924 sparklyr設定153

93 分區156

931 隱式分區156

932 顯式分區157

94 快取158

941 檢查點159

942 記憶體159

95 重洗160

96 序列化161

97 配置檔案161

98 小結162

第10章擴展163

101 概述163

102 H2O165

103 圖模型169

104 XGBoost173

105 深度學習176

106 基因組學179

107 空間數據181

108 故障排除183

109 小結183

第11章分散式R185

111 概述185

112 用例187

1121 定製解析器188

1122 分區建模189

1123 格線搜尋191

1124 Web API192

1125 模擬193

113 分區194

114 分組195

115 列196

116 context參數197

117 函式198

118 程式包199

119 集群需求200

1191 安裝R200

1192 Apache Arrow201

1110 故障排除203

11101 工作節點日誌204

11102 解決逾時205

11103 檢查分區206

11104 調試工作節點206

1111 小結207

第12章數據流208

121 概述208

122 轉換211

1221 分析212

1222 建模213

1223 管道214

1224 分散式R215

123 Kafka216

124 Shiny218

125 小結220

第13章社區貢獻221

131 概述221

132 Spark API223

133 Spark擴展224

134 使用Scala代碼226

135 小結228

附錄A 補充參考代碼229

作者簡介

Javier Luraschi是大規模數據科學諸多庫的發明者，包括sparklyr、r2d3、pins和cloudml。

Kevin Kuo構建了機器學習庫，並領導了Kasa AI的開放保險研究。

Edgar Ruiz構建了企業級的數據解決方案工具，包括dbplot、tidypredict和modeldb。

相關詞條

熱門詞條

聯絡我們