Scala機器學習

Scala機器學習

《Scala機器學習》是機械工業出版社出版的圖書,作者是〔美〕亞歷克斯·科茲洛夫。

基本介紹

  • 中文名:Scala機器學習
  • 作者:〔美〕亞歷克斯·科茲洛夫 
  • 出版社:機械工業出版社 
  • 出版時間:2017年7月
  • ISBN:9787111572152 
內容簡介,作品目錄,

內容簡介

這是一本關於機器學習的書,它以Scala為重點,介紹了函式式編程方法以及如何在Spark上處理大數據。本書後面將介紹關於Hadoop的內容。最初它能在廉價硬體上處理大量的信息,因為當時傳統的關係資料庫不能處理這樣的信息(或能處理,但是代價過高)。大數據這個話題太大了,而Spark才是本書的重點,它是Hadoop MapReduce的另一個實現,Spark提高了磁碟上持久化保存數據的效率。通常認為使用Spark有點貴,因為它消耗更多的記憶體,要求硬體必須更可靠,但它也更具互動性。此外,Spark使用Scala工作(也可以使用Java和Python等),但Scala是主要的API語言。因此Spark用Scala在數據管道的表達方面有一定的協同性。

作品目錄

  1. 譯者序
  2. 前言
  3. 第1章 探索數據分析
  4. 1.1 Scala入門
  5. 1.2 去除分類欄位的重複值
  6. 1.3 數值欄位概述
  7. 1.4 基本抽樣、分層抽樣和一致抽樣
  8. 1.5 使用Scala和Spark的Notebook工作
  9. 1.6 相關性的基礎
  10. 1.7 總結
  11. 第2章 數據管道和建模
  12. 2.1 影響圖
  13. 2.2 序貫試驗和風險處理
  14. 2.3 探索與利用問題
  15. 2.4 不知之不知
  16. 2.5 數據驅動系統的基本組件
  17. 2.5.1 數據收集
  18. 2.5.2 數據轉換層
  19. 2.5.3 數據分析與機器學習
  20. 2.5.4 UI組件
  21. 2.5.5 動作引擎
  22. 2.5.6 關聯引擎
  23. 2.5.7 監控
  24. 2.6 最佳化和互動
  25. 2.7 總結
  26. 第3章 使用Spark和MLlib
  27. 3.1 安裝Spark
  28. 3.2 理解Spark的架構
  29. 3.2.1 任務調度
  30. 3.2.2 Spark的組件
  31. 3.2.3 MQTT、ZeroMQ、Flume和Kafka
  32. 3.2.4 HDFS、Cassandra、S3和Tachyon
  33. 3.2.5 Mesos、YARN和Standalone
  34. 3.3 套用
  35. 3.3.1 單詞計數
  36. 3.3.2 基於流的單詞計數
  37. 3.3.3 Spark SQL和數據框
  38. 3.4 機器學習庫
  39. 3.4.1 SparkR
  40. 3.4.2 圖算法:Graphx和GraphFrames
  41. 3.5 Spark的性能調整
  42. 3.6 運行Hadoop的HDFS
  43. 3.7 總結
  44. 第4章 監督學習和無監督學習
  45. 4.1 記錄和監督學習
  46. 4.1.1 Iirs數據集
  47. 4.1.2 類標籤點
  48. 4.1.3 SVMWithSGD
  49. 4.1.4 logistic回歸
  50. 4.1.5 決策樹
  51. 4.1.6 bagging和boosting:集成學習方法
  52. 4.2 無監督學習
  53. 4.3 數據維度
  54. 4.4 總結
  55. 第5章 回歸和分類
  56. 5.1 回歸是什麼
  57. 5.2 連續空間和度量
  58. 5.3 線性回歸
  59. 5.4 logistic回歸
  60. 5.5 正則化
  61. 5.6 多元回歸
  62. 5.7 異方差
  63. 5.8 回歸樹
  64. 5.9 分類的度量
  65. 5.10 多分類問題
  66. 5.11 感知機
  67. 5.12 泛化誤差和過擬合
  68. 5.13 總結
  69. 第6章 使用非結構化數據
  70. 6.1 嵌套數據
  71. 6.2 其他序列化格式
  72. 6.3 Hive和Impala
  73. 6.4 會話化
  74. 6.5 使用特質
  75. 6.6 使用模式匹配
  76. 6.7 非結構化數據的其他用途
  77. 6.8 機率結構
  78. 6.9 投影
  79. 6.10 總結
  80. 第7章 使用圖算法
  81. 7.1 圖簡介
  82. 7.2 SBT
  83. 7.3 Scala的圖項目
  84. 7.3.1 增加節點和邊
  85. 7.3.2 圖約束
  86. 7.3.3 JSON
  87. 7.4 GraphX
  88. 7.4.1 誰收到電子郵件
  89. 7.4.2 連通分量
  90. 7.4.3 三角形計數
  91. 7.4.4 強連通分量
  92. 7.4.5 PageRank
  93. 7.4.6 SVD++
  94. 7.5 總結
  95. 第8章 Scala與R和Python的集成
  96. 8.1 R的集成
  97. 8.1.1 R和SparkR的相關配置
  98. 8.1.2 數據框
  99. 8.1.3 線性模型
  100. 8.1.4 廣義線性模型
  101. 8.1.5 在SparkR中讀取JSON檔案
  102. 8.1.6 在SparkR中寫入Parquet檔案
  103. 8.1.7 從R調用Scala
  104. 8.2 Python的集成
  105. 8.2.1 安裝Python
  106. 8.2.2 PySpark
  107. 8.2.3 從Java/Scala調用Python
  108. 8.3 總結
  109. 第9章 Scala中的NLP
  110. 9.1 文本分析流程
  111. 9.2 Spark的MLlib庫
  112. 9.2.1 TF-IDF
  113. 9.2.2 LDA
  114. 9.3 分詞、標註和分塊
  115. 9.4 POS標記
  116. 9.5 使用word2vec尋找詞關係
  117. 9.6 總結
  118. 第10章 高級模型監控
  119. 10.1 系統監控
  120. 10.2 進程監控
  121. 10.3 模型監控
  122. 10.3.1 隨時間變化的性能
  123. 10.3.2 模型停用標準
  124. 10.3.3 A/B測試
  125. 10.4 總結

相關詞條

熱門詞條

聯絡我們