Java數據分析指南

Java數據分析指南

《Java數據分析指南》是2020年1月人民郵電出版社出版的圖書,作者是[美]約翰·哈伯德(John R·Hubbard)。

基本介紹

  • 中文名:Java數據分析指南
  • 作者:[美]約翰·哈伯德(John R·Hubbard)
  • ISBN:9787115494863
  • 頁數:331頁
  • 定價:79元
  • 出版社:人民郵電出版社
  • 出版時間:2020年1月
  • 裝幀:平裝
  • 開本:16開
內容簡介,目錄,

內容簡介

當今,數據科學已經成為一個熱門的技術領域,例如數據處理、信息檢索、機器學習、自然語言處理、數據可視化等都得到了廣泛的套用和發展。而Java作為一門經典的程式語言,在數據科學領域也有著突出的表現。
本書旨在通過Java編程來引導讀者更好地進行數據分析。本書包含11章內容,詳細地介紹了數據科學導論、數據預處理、數據可視化、統計、關係資料庫、回歸分析、分類分析、聚類分析、推薦系統、NoSQL資料庫以及Java大數據分析等重要主題。
本書適合想通過Java解決數據科學問題的讀者,也適合數據科學領域的專業人士以及普通的Java開發者閱讀。通過閱讀本書,讀者將能夠對數據分析有更加深入的理解,並且掌握實用的數據分析技術。

目錄

第1章 數據科學導論 1
1.1 數據分析起源 1
1.2 科學方法 2
1.3 精算科學 2
1.4 蒸汽計算 3
1.5 一個驚人的例子 4
1.6 赫爾曼·何樂禮 5
1.7 ENIAC 6
1.8 VisiCalc 7
1.9 數據、信息和知識 7
1.10 為什麼用Java 7
1.11 Java集成開發環境 8
1.12 小結 10
第 2章 數據預處理 11
2.1 數據類型 11
2.2 變數 12
2.3 數據點和數據集 12
2.4 關係資料庫表 13
2.4.1 關鍵欄位 13
2.4.2 鍵—值對 14
2.5 哈希表 14
2.6 檔案格式 16
2.6.1 微軟Excel數據 18
2.6.2 XML和JSON數據 21
2.7 生成測試數據集 27
2.7.1 元數據 28
2.7.2 數據清洗 29
2.7.3 數據縮放 30
2.7.4 數據過濾 30
2.7.5 排序 33
2.7.6 合併 34
2.7.7 散列法 37
2.8 小結 38
第3章 數據可視化 39
3.1 表和圖 40
3.1.1 散點圖 40
3.1.2 線圖 42
3.1.3 條形圖 43
3.1.4 直方圖 43
3.2 時間序列 45
3.3 Java實現 46
3.4 移動平均 49
3.5 數據排序 53
3.6 頻率分布 55
3.7 常態分配 57
3.8 指數分布 59
3.9 Java示例 59
3.10 小結 61
第4章 統計 62
4.1 描述性統計量 62
4.2 隨機抽樣 65
4.3 隨機變數 67
4.4 機率分布 67
4.5 累積分布 69
4.6 二項分布 70
4.7 多元分布 74
4.8 條件機率 76
4.9 機率事件的獨立性 77
4.10 列聯表 78
4.11 貝葉斯定理 78
4.12 協方差和相關 80
4.13 標準常態分配 82
4.14 中心極限定理 86
4.15 置信區間 87
4.16 假設檢驗 89
4.17 小結 91
第5章 關係資料庫 92
5.1 關係數據模型 92
5.2 關係資料庫 93
5.3 外鍵 94
5.4 關係資料庫設計 95
5.4.1 創建資料庫 96
5.4.2 SQL命令 100
5.4.3 數據插入資料庫 104
5.4.4 資料庫查詢 106
5.4.5 SQL數據類型 107
5.4.6 JDBC 108
5.4.7 使用JDBC PreparedStatement 110
5.4.8 批處理 112
5.4.9 資料庫視圖 115
5.4.10 子查詢 119
5.4.11 表索引 121
5.5 小結 123
第6章 回歸分析 124
6.1 線性回歸 124
6.1.1 Excel中的線性回歸 125
6.1.2 計算回歸係數 129
6.1.3 變異統計量 131
6.1.4 線性回歸的Java實現 134
6.1.5 安斯庫姆的四重奏 141
6.2 多項式回歸 143
6.2.1 多元線性回歸 147
6.2.2 Apache Commons的實現 150
6.2.3 曲線擬合 151
6.3 小結 153
第7章 分類分析 154
7.1 決策樹 156
7.1.1 熵和它有什麼關係? 157
7.1.2 ID3算法 160
7.1.3 Weka平台 171
7.1.4 數據的ARFF檔案類型 171
7.1.5 Weka的Java實現 174
7.2 貝葉斯分類器 175
7.2.1 Weka的Java實現 177
7.2.2 支持向量機算法 181
7.3 邏輯回歸 184
7.3.1 k近鄰算法 189
7.3.2 模糊分類算法 193
7.4 小結 194
第8章 聚類分析 195
8.1 測量距離 195
8.2 維數災難 200
8.3 層次聚類法 201
8.3.1 Weka實現 210
8.3.2 K-均值聚類 212
8.3.3 K-中心點聚類 218
8.3.4 仿射傳播聚類 220
8.4 小結 228
第9章 推薦系統 229
9.1 效用矩陣 230
9.2 相似性度量 231
9.3 餘弦相似性 233
9.4 一個簡單的推薦系統 233
9.5 亞馬遜項目對項目的協同過濾推薦 244
9.6 實現用戶評分 250
9.7 大型稀疏矩陣 254
9.8 使用隨機訪問檔案 257
9.9 Netflix大獎賽 260
9.10 小結 260
第 10章 NoSQL資料庫 261
10.1 映射數據結構 261
10.2 SQL與NoSQL 263
10.3 Mongo資料庫系統 265
10.4 Library資料庫 270
10.5 MongoDB的Java開發 273
10.6 MongoDB的地理空間資料庫擴展 281
10.7 MongoDB中的索引 282
10.8 為什麼選擇NoSQL,為什麼選擇MongoDB 283
10.9 其他的NoSQL資料庫系統 284
10.10 小結 284
第 11章 Java大數據分析 285
11.1 擴展、數據分塊和分片 285
11.2 谷歌的PageRank算法 286
11.3 谷歌的MapReduce框架 290
11.4 MapReduce的一些套用示例 291
11.5 “單詞計數”示例 292
11.6 可擴展性 296
11.7 MapReduce的矩陣操作 297
11.8 MongoDB中的MapReduce 301
11.9 Apache Hadoop 302
11.10 Hadoop MapReduce 303
11.11 小結 304
附錄 Java工具 305

相關詞條

熱門詞條

聯絡我們