《Hadoop + Spark 大數據巨量分析與機器學習整合開發實戰》是於2017年1月清華大學出版社出版的一本圖書,作者是林大貴
前言,圖書簡介,
前言
大數據的影響力正深入到各個領域和行業中。特別在商業、經濟以及其他領域,將大量數據進行分析後,便可得到許多數據的關聯性。這些關聯性可用於預測商業趨勢、行銷研究、金融財務、疾病研究、打擊犯罪等。大數據對每一個企業的決策方式將發生變革——決策方式將基於數據和分析的結果,而不是依靠經驗和直覺。
信息科技(InformationTechnology,IT)浪潮的第一波是大型計算機,第二波是個人計算機(PC機),第三波是網路,第四波是社交媒體,第五波則是“大數據”。每一波的信息科技浪潮都會帶來工作與生活方式的改變,創造大量商機、新的產業、大量的工作機會。例如,在網路時代,創造了淘寶、百度、Google(谷歌)、Amazon(亞馬遜)等大公司,以及無數.com公司。
每一波浪潮開始時,相關人才的需求激增,從而造成相關人才的緊缺。因此對個人而言,如果能在浪潮興起時就投入,往往成果很豐碩,並且有機會占有重要職位。例如,網路剛興起時,每個公司都需要建立網站,但是這方面的人才當時相對不夠,能掌握編寫網頁相關應用程式設計語言的工程師就能夠獲得高薪。之後,投入的人越來越多,這方面的工程師就沒有當初那么吃香了。
之前的科技浪潮,也許你沒有機會躬逢其盛,或是沒有機會在浪潮初期進入。而目前大數據的浪潮方興未艾,正是進入的好時機。根據IBM公司調查預估,大數據在2014年的市場規模為71億美元,2015年則達到了180億美元,並將以每年增長20%的速度持續成長。機會是給有準備的人的,學會了大數據分析的相關技能,讓你有機會獲得更好的薪資與職業發展前景。根據美國調查機構RobertHalfTechnology2016年趨勢報告,在美國,大數據工程師的薪水年增長8.9%,年薪大約13萬至18萬美金(約合人民幣85萬元~120萬元)。因為人才短缺,企業不惜重金挖角。(搜尋RobertHalfTechnology2016就可以下載此調查報告)。
圖書簡介
《Hadoop+Spark大數據巨量分析與機器學習整合開發實戰》從淺顯易懂的“大數據和機器學習”原理介紹和說明入手,講述大數據和機器學習的基本概念,如:分類、分析、訓練、建模、預測、機器學習(推薦引擎)、機器學習(二元分類)、機器學習(多元分類)、機器學習(回歸分析)和數據可視化套用。為降低讀者學習大數據技術的門檻,書中提供了豐富的上機實踐操作和範例程式詳解,展示了如何在單台Windows系統上通過VirtualBox虛擬機安裝多台Linux虛擬機,如何建立Hadoop集群,再建立Spark開發環境。書中介紹搭建的上機實踐平台並不限制於單台實體計算機。對於有條件的公司和學校,參照書中介紹的搭建過程,同樣可以將實踐平台搭建在多台實體計算機上,以便更加接近於大數據和機器學習真實的運行環境。
《Hadoop+Spark大數據巨量分析與機器學習整合開發實戰》非常適合於學習大數據基礎知識的初學者閱讀,更適合正在學習大數據理論和技術的人員作為上機實踐用的教材。