Hadoop + Spark 大數據巨量分析與機器學習整合開發實戰

前言

大數據的影響力正深入到各個領域和行業中。特別在商業、經濟以及其他領域，將大量數據進行分析後，便可得到許多數據的關聯性。這些關聯性可用於預測商業趨勢、行銷研究、金融財務、疾病研究、打擊犯罪等。大數據對每一個企業的決策方式將發生變革——決策方式將基於數據和分析的結果，而不是依靠經驗和直覺。

信息科技（InformationTechnology，IT）浪潮的第一波是大型計算機，第二波是個人計算機（PC機），第三波是網路，第四波是社交媒體，第五波則是“大數據”。每一波的信息科技浪潮都會帶來工作與生活方式的改變，創造大量商機、新的產業、大量的工作機會。例如，在網路時代，創造了淘寶、百度、Google（谷歌）、Amazon（亞馬遜）等大公司，以及無數.com公司。

每一波浪潮開始時，相關人才的需求激增，從而造成相關人才的緊缺。因此對個人而言，如果能在浪潮興起時就投入，往往成果很豐碩，並且有機會占有重要職位。例如，網路剛興起時，每個公司都需要建立網站，但是這方面的人才當時相對不夠，能掌握編寫網頁相關應用程式設計語言的工程師就能夠獲得高薪。之後，投入的人越來越多，這方面的工程師就沒有當初那么吃香了。

之前的科技浪潮，也許你沒有機會躬逢其盛，或是沒有機會在浪潮初期進入。而目前大數據的浪潮方興未艾，正是進入的好時機。根據IBM公司調查預估，大數據在2014年的市場規模為71億美元，2015年則達到了180億美元，並將以每年增長20%的速度持續成長。機會是給有準備的人的，學會了大數據分析的相關技能，讓你有機會獲得更好的薪資與職業發展前景。根據美國調查機構RobertHalfTechnology2016年趨勢報告，在美國，大數據工程師的薪水年增長8.9%，年薪大約13萬至18萬美金（約合人民幣85萬元~120萬元）。因為人才短缺，企業不惜重金挖角。（搜尋RobertHalfTechnology2016就可以下載此調查報告）。

圖書簡介

《Hadoop+Spark大數據巨量分析與機器學習整合開發實戰》從淺顯易懂的“大數據和機器學習”原理介紹和說明入手，講述大數據和機器學習的基本概念，如：分類、分析、訓練、建模、預測、機器學習（推薦引擎）、機器學習（二元分類）、機器學習（多元分類）、機器學習（回歸分析）和數據可視化套用。為降低讀者學習大數據技術的門檻，書中提供了豐富的上機實踐操作和範例程式詳解，展示了如何在單台Windows系統上通過VirtualBox虛擬機安裝多台Linux虛擬機，如何建立Hadoop集群，再建立Spark開發環境。書中介紹搭建的上機實踐平台並不限制於單台實體計算機。對於有條件的公司和學校，參照書中介紹的搭建過程，同樣可以將實踐平台搭建在多台實體計算機上，以便更加接近於大數據和機器學習真實的運行環境。

《Hadoop+Spark大數據巨量分析與機器學習整合開發實戰》非常適合於學習大數據基礎知識的初學者閱讀，更適合正在學習大數據理論和技術的人員作為上機實踐用的教材。

Hadoop + Spark 大數據巨量分析與機器學習整合開發實戰

前言

圖書簡介

相關詞條

熱門詞條