Java數據科學實戰

Java數據科學實戰

《Java數據科學實戰》是2020年4月人民郵電出版社出版的圖書,作者是[美]麥可·R·布茹斯托維奇(Michael R·Brzustowicz)。

基本介紹

  • 書名:Java數據科學實戰
  • 作者:[美]麥可·R·布茹斯托維奇(Michael R·Brzustowicz)
  • ISBN:9787115533302
  • 頁數:186頁
  • 定價:59元
  • 出版社:人民郵電出版社
  • 出版時間:2020年4月
  • 裝幀:平裝
  • 開本:16開
內容簡介,圖書目錄,

內容簡介

《Java數據科學實戰》基於清晰的、面向對象的Java代碼,討論了數據科學研究的一些基本原理。考慮到項目所需的可伸縮性、穩健性以及便利性,Java是一門理想的語言。本書解釋了數據科學過程每個步驟背後的基本數學原理,以及如何將這些概念套用於Java。本書內容涉及數據輸入與輸出、線性代數、統計學、數據操作、學習與預測,以及Hadoop MapReduce在這個過程中所扮演的關鍵角色。書中還提供了在應用程式中使用的代碼示例。

圖書目錄

前言 xi
第1章 數據的輸入與輸出 1
1.1 究竟何謂數據 1
1.2 數據模型 2
1.2.1 一維數組 2
1.2.2 多維數組 2
1.2.3 數據對象 3
1.2.4 矩陣和向量 3
1.2.5 JSON 4
1.3 處理實際數據 4
1.3.1 空值 4
1.3.2 空格 5
1.3.3 解析錯誤 5
1.3.4 異常值 6
1.4 管理數據檔案 6
1.4.1 首先理解檔案內容 7
1.4.2 讀取文本檔案 8
1.4.3 讀取JSON檔案 10
1.4.4 讀取圖像檔案 11
1.4.5 寫入文本檔案 12
1.5 掌握資料庫操作 15
1.5.1 命令行客戶端 15
1.5.2 結構化查詢語言 16
1.5.3 Java資料庫連線 18
1.6 通過繪圖將數據可視化 20
1.6.1 創建簡單圖形 21
1.6.2 混合類型圖的繪製 24
1.6.3 把圖存入檔案 26
第 2章 線性代數 28
2.1 構造向量和矩陣 29
2.1.1 數組存儲 30
2.1.2 塊存儲 31
2.1.3 映射存儲 31
2.1.4 訪問元素 31
2.1.5 處理子陣 33
2.1.6 隨機化 34
2.2 向量與矩陣的運算 35
2.2.1 縮放 35
2.2.2 轉置 36
2.2.3 加與減 36
2.2.4 長度 37
2.2.5 距離 38
2.2.6 相乘 39
2.2.7 內積 40
2.2.8 外積 41
2.2.9 逐項積 42
2.2.10 複合運算 43
2.2.11 仿射變換 43
2.2.12 映射函式 44
2.3 矩陣分解 47
2.3.1 Cholesky分解 47
2.3.2 LU分解 48
2.3.3 QR分解 48
2.3.4 奇異值分解 48
2.3.5 特徵分解 49
2.3.6 行列式 50
2.3.7 矩陣逆 50
2.4 求解線性方程組 51
第3章 統計學 53
3.1 數據的機率起源 54
3.1.1 機率密度 54
3.1.2 累積機率 55
3.1.3 統計矩 55
3.1.4 熵 56
3.1.5 連續分布 57
3.1.6 離散分布 68
3.2 數據集的特徵 73
3.2.1 矩的計算 73
3.2.2 描述性統計 74
3.2.3 多元統計 79
3.2.4 協方差與相關係數 81
3.2.5 回歸 82
3.3 處理大數據集 84
3.3.1 累積統計 85
3.3.2 統計結果的歸併 87
3.3.3 回歸 88
3.4 資料庫內置函式的套用 89
第4章 數據操作 91
4.1 轉換文本數據 91
4.1.1 從文檔中提取標記 91
4.1.2 利用字典 92
4.1.3 文檔向量化 94
4.2 數值數據的縮放與歸一化 97
4.2.1 對列進行縮放 97
4.2.2 對行進行縮放 99
4.2.3 矩陣的縮放運算元 100
4.3 將數據降維至主成分 102
4.3.1 協方差方法 105
4.3.2 SVD方法 106
4.4 創建訓練集、驗證集及測試集 108
4.4.1 基於索引的重新採樣 108
4.4.2 基於列表的重新採樣 110
4.4.3 小批量 111
4.5 標籤的編碼 111
4.5.1 泛型編碼器 111
4.5.2 一位有效編碼 112
第5章 學習與預測 115
5.1 學習算法 115
5.1.1 疊代學習過程 115
5.1.2 梯度下降最佳化方法 117
5.2 評估學習過程 119
5.2.1 損失函式最小化 119
5.2.2 方差和的最小化 127
5.2.3 輪廓係數 127
5.2.4 對數似然性 128
5.2.5 分類器的準確率 129
5.3 無監督型學習 131
5.3.1 K均值聚類 131
5.3.2 DBSCAN 133
5.3.3 高斯混合 137
5.4 監督型學習 141
5.4.1 樸素貝葉斯 142
5.4.2 線性模型 148
5.4.3 深度網路 156
第6章 Hadoop MapReduce 161
6.1 Hadoop分散式檔案系統 161
6.2 MapReduce體系結構 162
6.3 編寫MapReduce套用 163
6.3.1 剖析MapReduce任務 164
6.3.2 Hadoop數據類型 164
6.3.3 映射器 167
6.3.4 歸約器 168
6.3.5 JSON字元串作為文本的簡單性 169
6.3.6 部署技巧 170
6.4 MapReduce 示例 171
6.4.1 單詞計數 171
6.4.2 定製單詞計數 172
6.4.3 稀疏線性代數 173
附錄A 數據集 177
作者簡介 186
關於封面 186

相關詞條

熱門詞條

聯絡我們