Spark 2.x 大數據分析與機器學習實戰

內容簡介

身處於信息爆炸的時代，數據無時無刻不間斷產生，大型購物網站的會員數據、工廠大規模的感測器數據…等等，當要處理的數據規模達到大數據等級時，就不再是單機的 R 或 Python 可以應付得來的。 Apache Spark 是一套分散式和高擴展性的數據分析系統，在大數據分析乃至於計器學習的套用上占有一席之地。為了因應數據量爆炸性的成長，Spark 也不斷擴充其功能模組，提供更具效率的數據分析與處理流程，也因此造成許多開發者對於 Spark 各個功能模組的用法與差異並不了解，對於新的功能模組也不得其門而入。徹底了解Apache Spark 2.x中的新功能，建構全自動化的機器學習流程本書由標準Apache Spark 模組開始，將一一介紹記憶體管理、二進制處理、快取感知計算和程式代碼生成，加快在Spark 上的執行效率。並整合整合 H2O 和 Deep...(展開全部) 身處於信息爆炸的時代，數據無時無刻不間斷產生，大型購物網站的會員數據、工廠大規模的感測器數據…等等，當要處理的數據規模達到大數據等級時，就不再是單機的 R 或 Python 可以應付得來的。 Apache Spark 是一套分散式和高擴展性的數據分析系統，在大數據分析乃至於計器學習的套用上占有一席之地。為了因應數據量爆炸性的成長，Spark 也不斷擴充其功能模組，提供更具效率的數據分析與處理流程，也因此造成許多開發者對於 Spark 各個功能模組的用法與差異並不了解，對於新的功能模組也不得其門而入。徹底了解Apache Spark 2.x中的新功能，建構全自動化的機器學習流程本書由標準Apache Spark 模組開始，將一一介紹記憶體管理、二進制處理、快取感知計算和程式代碼生成，加快在Spark 上的執行效率。並整合整合 H2O 和Deeplearning4j，進行目前當紅的機器學習套用，以及運用 Jupyter 筆記本、Zeppelin、Docker 和Kubernetes 在雲端架構上使用 Spark。書中使用支持度高且運算快的原生語言 Scala 來開發，並深入探討 Apache Spark 2.x 的細節以及提供實際的範例作為教學如：從 MQTT 接收 IoT 洗衣機的串流數據、道路安全數據中使用機器學習來做分類、使用深度學習來處理軸承的震動感測器數據的異常偵測…等等。而最重要的，本書作者 Romeo Kienzler 做為 IBM Watson IoT worldwide 團隊的首席數據科學家，期許以業界的觀點，透過理論與實作帶領讀者進入大數據與機器學習的世界。你還將徹底了解 Apache Spark 2.x 中的新功能，特別是使用 SparkML 建構全自動化的機器學習流程，讓你對 Spark 有完全不同的全新認識。 Romeo Kienzler RomeoKienzler 是 IBM Watson IoT 全球團隊的首席數據科學家，幫助客戶大規模地套用先進的機器學習在其 IoT 感測器數據。他擁有蘇黎世瑞士聯邦理工學院的計算器科學碩士學位，專攻信息系統、生物信息和套用統計學，目前的研究重點是 Apache Spark 上可擴展的機器學習，也是各種開源專案的貢獻者。作者目前在瑞士伯爾尼套用科技大學擔任副教授，開設人工智慧課程，同時也是 IBM 技術專家委員會和 IBM Academy of Technology (IBM主要的智囊團) 的成員。

Spark 2.x 大數據分析與機器學習實戰

基本介紹

熱門詞條