《Scala機器學習》是機械工業出版社出版的圖書,作者是〔美〕亞歷克斯·科茲洛夫。
基本介紹
- 中文名:Scala機器學習
- 作者:〔美〕亞歷克斯·科茲洛夫
- 出版社:機械工業出版社
- 出版時間:2017年7月
- ISBN:9787111572152
內容簡介
作品目錄
- 譯者序
- 前言
- 第1章 探索數據分析
- 1.1 Scala入門
- 1.2 去除分類欄位的重複值
- 1.3 數值欄位概述
- 1.4 基本抽樣、分層抽樣和一致抽樣
- 1.5 使用Scala和Spark的Notebook工作
- 1.6 相關性的基礎
- 1.7 總結
- 第2章 數據管道和建模
- 2.1 影響圖
- 2.2 序貫試驗和風險處理
- 2.3 探索與利用問題
- 2.4 不知之不知
- 2.5 數據驅動系統的基本組件
- 2.5.1 數據收集
- 2.5.2 數據轉換層
- 2.5.3 數據分析與機器學習
- 2.5.4 UI組件
- 2.5.5 動作引擎
- 2.5.6 關聯引擎
- 2.5.7 監控
- 2.6 最佳化和互動
- 2.7 總結
- 第3章 使用Spark和MLlib
- 3.1 安裝Spark
- 3.2 理解Spark的架構
- 3.2.1 任務調度
- 3.2.2 Spark的組件
- 3.2.3 MQTT、ZeroMQ、Flume和Kafka
- 3.2.4 HDFS、Cassandra、S3和Tachyon
- 3.2.5 Mesos、YARN和Standalone
- 3.3 套用
- 3.3.1 單詞計數
- 3.3.2 基於流的單詞計數
- 3.3.3 Spark SQL和數據框
- 3.4 機器學習庫
- 3.4.1 SparkR
- 3.4.2 圖算法:Graphx和GraphFrames
- 3.5 Spark的性能調整
- 3.6 運行Hadoop的HDFS
- 3.7 總結
- 第4章 監督學習和無監督學習
- 4.1 記錄和監督學習
- 4.1.1 Iirs數據集
- 4.1.2 類標籤點
- 4.1.3 SVMWithSGD
- 4.1.4 logistic回歸
- 4.1.5 決策樹
- 4.1.6 bagging和boosting:集成學習方法
- 4.2 無監督學習
- 4.3 數據維度
- 4.4 總結
- 第5章 回歸和分類
- 5.1 回歸是什麼
- 5.2 連續空間和度量
- 5.3 線性回歸
- 5.4 logistic回歸
- 5.5 正則化
- 5.6 多元回歸
- 5.7 異方差
- 5.8 回歸樹
- 5.9 分類的度量
- 5.10 多分類問題
- 5.11 感知機
- 5.12 泛化誤差和過擬合
- 5.13 總結
- 第6章 使用非結構化數據
- 6.1 嵌套數據
- 6.2 其他序列化格式
- 6.3 Hive和Impala
- 6.4 會話化
- 6.5 使用特質
- 6.6 使用模式匹配
- 6.7 非結構化數據的其他用途
- 6.8 機率結構
- 6.9 投影
- 6.10 總結
- 第7章 使用圖算法
- 7.1 圖簡介
- 7.2 SBT
- 7.3 Scala的圖項目
- 7.3.1 增加節點和邊
- 7.3.2 圖約束
- 7.3.3 JSON
- 7.4 GraphX
- 7.4.1 誰收到電子郵件
- 7.4.2 連通分量
- 7.4.3 三角形計數
- 7.4.4 強連通分量
- 7.4.5 PageRank
- 7.4.6 SVD++
- 7.5 總結
- 第8章 Scala與R和Python的集成
- 8.1 R的集成
- 8.1.1 R和SparkR的相關配置
- 8.1.2 數據框
- 8.1.3 線性模型
- 8.1.4 廣義線性模型
- 8.1.5 在SparkR中讀取JSON檔案
- 8.1.6 在SparkR中寫入Parquet檔案
- 8.1.7 從R調用Scala
- 8.2 Python的集成
- 8.2.1 安裝Python
- 8.2.2 PySpark
- 8.2.3 從Java/Scala調用Python
- 8.3 總結
- 第9章 Scala中的NLP
- 9.1 文本分析流程
- 9.2 Spark的MLlib庫
- 9.2.1 TF-IDF
- 9.2.2 LDA
- 9.3 分詞、標註和分塊
- 9.4 POS標記
- 9.5 使用word2vec尋找詞關係
- 9.6 總結
- 第10章 高級模型監控
- 10.1 系統監控
- 10.2 進程監控
- 10.3 模型監控
- 10.3.1 隨時間變化的性能
- 10.3.2 模型停用標準
- 10.3.3 A/B測試
- 10.4 總結