Java數據科學指南

Java數據科學指南

《Java數據科學指南》是2018年6月人民郵電出版社出版的圖書,作者是[加]魯什迪·夏姆斯(Rushdi Shams)。

基本介紹

  • 書名:Java數據科學指南
  • 作者:[加]魯什迪·夏姆斯(Rushdi Shams)
  • ISBN:9787115481634
  • 頁數:302頁
  • 定價:79元
  • 出版社:人民郵電出版社
  • 出版時間:2018年6月
  • 裝幀:平裝
  • 開本:16開
內容簡介,目錄,

內容簡介

現如今,數據科學已經成為一個熱門的技術領域,它涵蓋了人工智慧的各個方面,例如數據處理、信息檢索、機器學習、自然語言處理、數據可視化等。而Java作為一門經典的程式語言,在數據科學領域也有著傑出的表現。
本書旨在通過Java編程來引導讀者更好地完成數據科學任務。本書通過9章內容,詳細地介紹了數據獲取與清洗、索引的建立和檢索數據、統計分析、數據學習、信息的提取、大數據處理、深度學習、數據可視化等重要主題。
本書適合想通過Java解決數據科學問題的讀者,也適合數據科學領域的專業人士以及普通Java開發人員閱讀。

目錄

第1章 獲取數據與清洗數據 1
1.1 簡介 2
1.2 使用Java從分層中提取所有檔案名稱 3
準備工作 3
操作步驟 3
1.3 使用Apache Commons IO從多層中提取所有檔案名稱 5
準備工作 5
操作步驟 5
1.4 使用Java 8從文本檔案一次性讀取所有內容 6
操作步驟 7
1.5 使用Apache Commons IO從文本檔案一次性讀取所有內容 7
準備工作 7
操作方法 8
1.6 使用Apache Tika提取PDF文本 8
準備知識 9
操作步驟 9
1.7 使用正則表達式清洗ASCII文本檔案 11
操作步驟 11
1.8 使用Univocity解析CSV檔案 12
準備工作 13
操作步驟 13
1.9 使用Univocity解析TSV檔案 15
準備工作 15
操作步驟 16
1.10 使用JDOM解析XML檔案 17
準備工作 17
操作步驟 18
1.11 使用JSON.simple編寫JSON檔案 20
準備工作 20
操作步驟 21
1.12 使用JSON.simple讀取JSON檔案 23
準備工作 24
操作步驟 24
1.13 使用JSoup從一個URL提取Web數據 26
準備工作 26
操作步驟 26
1.14 使用Selenium Webdriver從網站提取Web數據 29
準備工作 29
操作步驟 29
1.15 從MySQL資料庫讀取表格數據 32
準備工作 32
操作步驟 32
第 2章 為數據建立索引與搜尋數據 35
2.1 簡介 35
2.2 使用Apache Lucene為數據建立索引 35
準備工作 36
操作步驟 40
工作原理 47
2.3 使用Apache Lucene搜尋帶索引的數據 50
準備工作 50
操作步驟 51
第3章 數據統計分析 56
3.1 簡介 57
3.2 生成描述性統計 59
操作步驟 59
3.3 生成概要統計 60
操作步驟 60
3.4 從多種分布生成概要統計 61
操作步驟 62
更多內容 63
3.5 計算頻率分布 64
操作步驟 64
3.6 計算字元串中的詞頻 65
操作步驟 65
工作原理 67
3.7 使用Java 8計算字元串中的詞頻 67
操作步驟 67
3.8 計算簡單回歸 68
操作步驟 69
3.9 計算普通最小二乘回歸 70
操作步驟 70
3.10 計算廣義最小二乘回歸 72
操作步驟 72
3.11 計算兩組數據點的協方差 74
操作步驟 74
3.12 為兩組數據點計算皮爾遜相關係數 75
操作步驟 75
3.13 執行配對t檢驗 76
操作步驟 76
3.14 執行卡方檢驗 77
操作步驟 78
(one-way ANOVA test) 79
操作步驟 79
3.16 執行K-S檢驗 81
操作步驟 81
第4章 數據學習Ⅰ 83
4.1 簡介 83
4.2 創建與保存ARFF檔案 84
操作步驟 87
4.3 對機器學習模型進行交叉驗證 91
操作步驟 91
4.4 對新的測試數據進行分類 95
準備工作 95
操作步驟 96
4.5 使用過濾分類器對新測試數據分類 102
操作步驟 102
4.6 創建線性回歸模型 105
操作步驟 106
4.7 創建邏輯回歸模型 108
操作步驟 108
4.8 使用K均值算法對數據點
進行聚類 110
操作步驟 110
4.9 依據類別對數據進行聚類處理 113
操作方法 113
4.10 學習數據間的關聯規則 116
準備工作 116
操作步驟 116
4.11 使用低層方法、過濾方法、元分類器方法選擇特徵/屬性 118
準備工作 119
操作步驟 119
第5章 數據學習Ⅱ 125
5.1 簡介 125
5.2 使用Java機器學習庫(Java-ML)向數據套用機器學習 126
準備工作 126
操作步驟 128
5.3 使用斯坦福分類器對數據點分類 137
準備工作 137
操作步驟 140
工作原理 141
5.4 使用MOA對數據點分類 142
準備工作 142
操作步驟 144
5.5 使用Mulan對多標籤數據點進行分類 147
準備工作 147
操作步驟 150
第6章 從文本數據提取信息 154
6.1 簡介 154
6.2 使用Java檢測標記(單詞) 155
準備工作 155
操作步驟 155
6.3 使用Java檢測句子 160
準備工作 160
操作步驟 160
6.4 使用OpenNLP檢測標記(單詞)與句子 161
準備工作 162
操作步驟 163
6.5 使用Stanford CoreNLP從標記中提取詞根、詞性,以及
識別命名實體 167
準備工作 167
操作步驟 169
6.6 使用Java 8藉助餘弦相似性測度測量文本相似度 171
準備工作 172
操作步驟 172
6.7 使用Mallet從文本文檔提取主題 176
準備工作 177
操作步驟 179
6.8 使用Mallet對文本文檔進行分類 184
準備工作 184
操作步驟 185
6.9 使用Weka對文本文檔進行分類 189
準備工作 190
操作步驟 191
第7章 處理大數據 194
7.1 簡介 194
7.2 使用Apache Mahout訓練線上邏輯回歸模型 195
準備工作 195
操作步驟 198
7.3 使用Apache Mahout套用線上邏輯回歸模型 202
準備工作 202
操作步驟 203
7.4 使用Apache Spark解決簡單的文本挖掘問題 207
準備工作 208
操作步驟 210
7.5 使用MLib的K均值算法做聚類 214
準備工作 214
操作步驟 214
7.6 使用MLib創建線性回歸模型 217
準備工作 217
操作步驟 218
7.7 使用MLib的隨機森林模型對數據點進行分類 222
準備工作 222
操作步驟 223
第8章 數據深度學習 229
8.1 簡介 229
8.2 使用DL4j創建Word2vec神經網路 241
操作方法 241
工作原理 243
更多內容 246
8.3 使用DL4j創建深度信念神經網路 246
操作步驟 246
工作原理 250
8.4 使用DL4j創建深度自動編碼器 254
操作步驟 254
工作原理 256
第9章 數據可視化 259
9.1 簡介 259
9.2 繪製2D正弦曲線 260
準備工作 260
操作步驟 262
9.3 繪製直方圖 266
準備工作 266
操作步驟 268
9.4 繪製條形圖 273
準備工作 274
操作步驟 275
9.5 繪製箱線圖或箱須圖 279
準備工作 279
操作步驟 281
9.6 繪製散點圖 285
準備工作 285
操作步驟 286
9.7 繪製甜圈圖 289
準備工作 289
操作步驟 290
9.8 繪製面積圖 294
準備工作 294
操作步驟 295

相關詞條

熱門詞條

聯絡我們