《精通Spark數據科學》是2020年人民郵電出版社出版的圖書。
基本介紹
- 書名:精通Spark數據科學
- 作者:[美]安德魯·摩根,[英]安托萬·阿門德,[英]大衛·喬治 等
- 出版社:人民郵電出版社
- 出版時間:2020年
- 開本:16 開
- ISBN:9787115541567
內容簡介,作者簡介,
內容簡介
Apache Spark是專為大規模數據處理而設計的快速通用的計算引擎。這是一本專門介紹Spark的圖書,旨在教會讀者利用Spark構建實用的數據科學解決方案。 本書內容包括14章,由淺入深地介紹了數據科學生態系統、數據獲取、輸入格式與模式、探索性數據分析、利用Spark進行地理分析、採集基於連結的外部數據、構建社區、構建推薦系統、新聞詞典和實時標記系統、故事除重和變遷、情感分析中的異常檢測、趨勢演算、數據保護和可擴展算法。 本書適合數據科學家以及對數據科學、機器學習感興趣的讀者閱讀,需要讀者具備數據科學相關的基礎知識,並通過閱讀本書進一步提升Spark運用能力,從而創建出高效且實用的數據科學解決方案。
作者簡介
安德魯·摩根(Andrew Morgan)是數據戰略及其執行方面的專家,在支持技術、系統架構和實現數據科學方面擁有豐富的經驗。他在數據行業擁有20多年的經驗,曾為一些久負盛名的公司及其全球客戶設計系統——通常是大型、複雜和國際性的項目。2013年,他創辦了數據科學和大數據工程諮詢公司ByteSumo,目前在與歐洲和美國的客戶進行合作。Andrew是一位活躍的數據科學家,也是趨勢演算(TrendCalculus)算法的發明者。該算法是他為自己的研究項目而開發的,該項目旨在研究基於機器學習的長期預測,這些預測可以在不斷變化的文化、地緣政治和經濟趨勢中發現規律。他還是Hadoop Summit EU數據科學委員會的成員,並在許多會議上就各種數據主題發表過演講。他也活躍於他的居住地倫敦的數據科學和大數據社區。 安托萬·阿門德(Antoine Amend)是一位對大數據工程和可擴展計算充滿熱情的數據科學家。這本書的主題是“折騰”天文數字量級的非結構化數據以獲得新的見解,這主要源於Antoine的理論物理學背景。他於2008年畢業並獲得天體物理學碩士學位。在Hadoop的早期階段,在大數據的概念普及之前,他曾在瑞士的一家大型諮詢公司工作。從那時起,他就開始接觸大數據技術。現在他在巴克萊銀行擔任網路安全數據科學部門的主管。通過將科學方法與核心IT技能相結合,Antoine連續兩年獲得了在德克薩斯州奧斯汀舉行的大數據世界錦標賽決賽資格。他在2014年和2015年都名列前12位(超過2 000多名競爭對手),這兩次比賽中他還使用了本書介紹的方法和技術贏得了創新獎。 大衛·喬治(David George)是一位傑出的分散式計算專家,擁有超過15年的數據系統從業經驗,主要服務於全球聞名的IT諮詢機構和品牌。他很早以前就開始使用Hadoop核心技術,並做過大規模的實施。David總是採用務實的方法進行軟體設計,並重視簡約中的優雅。 如今,他繼續作為首席工程師為金融行業客戶設計可擴展的套用,並滿足一些較為嚴苛的需求。他的新項目側重於採用先進的人工智慧技術來提高知識產業的自動化水平。 馬修·哈利特(Matthew Hallett)是一名軟體工程師和計算機科學家,擁有超過15年的從業經驗。他是一名面向對象的“專家級程式設計師”和系統工程師,擁有豐富的底層編程範式知識。在過去的幾年裡,他在Hadoop和關鍵業務環境中的分散式編程方面積累了豐富的專業知識,這些環境由數千節點的數據中心組成。Matthew在分散式算法和分散式計算體系結構的實施方面擁有多種語言的諮詢經驗,目前是“四大審計公司”數據科學與工程團隊的數據工程師顧問。