基本介紹
- 書名:大數據:技術與套用實踐指南
- 又名:Big Data:Technology and Application Pratice
- 作者:趙剛
- ISBN: 978-7-121-21560-5
- 頁數:292頁
- 定價:59.00元
- 出版社:電子工業出版社
- 出版時間:2013年10月出版
- 裝幀:平裝
- 開本:16
內容簡介,目錄,精彩節摘,前言,
內容簡介
大數據是網際網路、移動套用、社交網路和物聯網等技術發展的必然趨勢,大數據套用成為當前最為熱門的信息技術套用領域。本書由淺入深,首先概述性地分析了大數據的發展背景、基本概念,從業務的角度分析了大數據套用的主要業務價值和業務需求,在此基礎上介紹大數據的技術架構和關鍵技術,結合套用實踐,詳細闡述了傳統信息系統與大數據平台的整合策略,大數據套用實踐的流程和方法,並介紹了主要的大數據套用產品和解決方案。最後,對大數據面臨的挑戰和未來的趨勢進行了展望。
本書既具有技術深度,又具有很強的可操作性,提供了一個系統性、架構性的大數據套用實踐指南,綱要性地指導大數據套用實踐,推動大數據技術在各個行業的廣泛套用。
目錄
第1 章 大數據的概念和發展背景..........................................................................1
1.1 大數據的發展背景..................................................................................................1
1.2 大數據的概念和特徵..............................................................................................4
1.2.1 大數據的概念.................................................................................................4
1.2.2 大數據的特徵.................................................................................................4
1.3 大數據的產生..........................................................................................................5
1.3.1 數據產生由企業內部向企業外部擴展...........................................................5
1.3.2 數據產生從Web 1.0 向Web 2.0、從網際網路向移動網際網路擴展.....................6
1.3.3 數據產生從計算機/網際網路(IT)向物聯網(IOT)擴展..............................7
1.4 數據的量級..............................................................................................................7
1.4.1 數據大小的量級.............................................................................................7
1.4.2 大數據的量級.................................................................................................8
1.5 大量不同的數據類型..............................................................................................8
1.5.1 按照數據結構分類.........................................................................................9
1.5.2 按照產生主體分類.......................................................................................12
1.5.3 按照數據作用方式分類................................................................................13
1.6 大數據的速度........................................................................................................14
1.7 大數據的潛在價值................................................................................................14
1.8 大數據的挑戰........................................................................................................15
1.8.1 業務視角不同帶來的挑戰............................................................................15
1.8.2 技術架構不同帶來的挑戰............................................................................15
1.8.3 管理策略不同帶來的挑戰.............................................................................16
第2 章 大數據套用的業務需求.................................................................17
2.1 大數據套用的業務流程........................................................................................17
2.1.1 產生數據......................................................................................................17
2.1.2 聚集數據......................................................................................................18
2.1.3 分析數據......................................................................................................19
2.1.4 利用數據......................................................................................................19
2.2 大數據套用的業務價值........................................................................................19
2.2.1 發現大數據的潛在價值................................................................................20
2.2.2 實現大數據整合創新的價值........................................................................20
2.2.3 新領域再利用的價值...................................................................................21
2.3 各行業大數據套用的個性需求............................................................................21
2.3.1 網際網路與電子商務行業................................................................................21
2.3.2 零售業..........................................................................................................27
2.3.3 金融業..........................................................................................................28
2.3.4 政府..............................................................................................................32
2.3.5 醫療業..........................................................................................................34
2.3.6 能源業..........................................................................................................36
2.3.7 製造業..........................................................................................................37
2.3.8 電信運營業..................................................................................................39
2.3.9 交通物流業..................................................................................................41
2.4 企業級大數據套用的共性需求............................................................................42
2.4.1 客戶分析......................................................................................................42
2.4.2 績效分析......................................................................................................46
2.4.3 欺詐和風險評估...........................................................................................48
2.5 以銀行客戶分析為例,分析一個大數據的套用場景.......................................49
第3 章 大數據套用的總體架構和關鍵技術..............................................................51
3.1 總體架構.................................................................................................................51
3.1.1 業務目標......................................................................................................51
3.1.2 架構設計原則...............................................................................................52
3.1.3 總體架構參考模型.......................................................................................55
3.1.4 總體架構的特點...........................................................................................58
3.2 大數據存儲和處理技術........................................................................................59
3.2.1 Hadoop:分散式存儲和計算平台................................................................59
3.2.3 Hadoop 之MapReduce:分散式計算框架.................................................... 72
3.2.5 Hadoop 之外的大數據計算技術.................................................................113
3.3 大數據查詢和分析技術:SQL on Hadoop....................................................... 126
3.3.1 Hive:基本的Hadoop 查詢和分析............................................................. 127
3.3.2 Hive 2.0:Hive 的最佳化和升級....................................................................137
3.3.3 實時互動的SQL:Impala 和drill.............................................................. 140
3.3.4 基於PostgreSQL 的SQL onHadoop........................................................... 146
3.4 大數據高級分析和可視化技術..........................................................................147
3.4.1 傳統數據倉庫與在線上分析處理技術...........................................................147
3.4.2 大數據對傳統分析的挑戰..........................................................................150
3.4.3 大數據挖掘與高級分析..............................................................................150
3.4.4 大數據挖掘與高級分析庫:Mahout...........................................................155
3.4.5 非結構化複雜數據分析..............................................................................156
3.4.6 實時預測分析.............................................................................................163
3.4.7 開源可視化工具:R 語言..........................................................................170
3.4.8 可視化技術................................................................................................178
3.5.1 銀行客戶大數據套用體系架構...................................................................187
3.5.2 技術環境安裝與配置.................................................................................189
第4 章 大數據與企業級套用的整合策略...............................................................202
4.1 大數據傳輸、整合和流程管理平台.................................................................203
4.1.1 數據傳輸....................................................................................................203
4.1.2 數據整合....................................................................................................209
4.1.3 流程管理....................................................................................................211
4.2 大數據與存儲架構的整合..................................................................................215
4.2.1 傳統存儲架構比較.....................................................................................215
4.2.2 大數據平台的存儲架構的選擇...................................................................216
4.2.3 集群存儲的發展.........................................................................................217
4.2.4 基於HDFS 的集群存儲..............................................................................219
4.2.5 固態硬碟(SSD)對記憶體計算的支持........................................................ 221
4.3 大數據與網路架構的發展..................................................................................221
4.4 大數據與虛擬化技術的整合..............................................................................227
4.5 在雲計算平台上的大數據云..............................................................................229
4.6 大數據與信息安全..............................................................................................231
4.7 以銀行客戶分析為例,分析一個大數據的平台整合.....................................234
第5 章 大數據套用的實踐方法與案例...................................................................235
5.1 實踐方法論..........................................................................................................235
5.1.1 業務需求定義.............................................................................................235
5.1.2 數據套用現狀分析與標桿比較...................................................................237
5.1.3 大數據套用架構規劃和設計......................................................................238
5.1.4 大數據技術切入與實施..............................................................................239
5.1.5 大數據試用和評估.....................................................................................240
5.1.6 大數據套用推廣.........................................................................................241
5.2 套用案例...............................................................................................................241
5.2.1 亞馬遜........................................................................................................241
5.2.2 雅虎............................................................................................................242
5.2.3 淘寶網........................................................................................................242
5.2.4 Facebook....................................................................................................243
5.3 以銀行客戶分析為例的實施案例分析.............................................................244
5.3.1 銀行基於大數據的客戶分析的業務需求....................................................244
5.3.2 銀行基於大數據的客戶分析的現狀與標桿比較.........................................245
5.3.3 銀行基於大數據的客戶分析的套用架構規劃與設計.................................246
5.3.4 銀行基於大數據的數據分析的實施、試點和推廣.....................................247
第6 章 大數據套用的主流解決方案......................................................................248
6.1 產業鏈...................................................................................................................248
6.1.1 國際上的大數據生態環境..........................................................................248
6.1.2 國內產業鏈主要力量.................................................................................251
6.2 主流廠商解決方案..............................................................................................252
6.2.1 Cloundera...................................................................................................252
6.2.2 Hortonworks...............................................................................................254
6.2.3MapR..........................................................................................................254
6.2.4 IBM ............................................................................................................255
6.2.5 Oracle.........................................................................................................257
6.2.6 EMC ...........................................................................................................258
6.2.7 Intel............................................................................................................259
6.2.8 SAP ............................................................................................................260
6.2.9 Teradata......................................................................................................262
第7 章 大數據套用的未來挑戰和趨勢........................................................................263
7.1 隱私保護...............................................................................................................263
7.1.1 法律保護....................................................................................................264
7.1.2 技術保護....................................................................................................266
7.1.3 理念革新....................................................................................................267
7.2 技術標準...............................................................................................................268
7.2.1 ISO 標準化進展.........................................................................................268
7.2.2 評價基準和基準測試.................................................................................269
7.2.3 標準套件....................................................................................................273
7.3 大數據治理..........................................................................................................273
7.3.1 數據治理框架.............................................................................................274
7.3.2 數據質量管理.............................................................................................274
7.3.3 大數據的組織、角色和責任......................................................................276
7.4 適應商業社會的未來趨勢..................................................................................277
7.4.1 從產品推銷向數據行銷的轉變...................................................................277
7.4.2 從流程驅動到分析驅動的轉變...................................................................277
7.4.3 從私有資源到公共服務的轉變...................................................................278
精彩節摘
序
隨著新一代信息技術的發展和套用,尤其是網際網路、物聯網、移動網際網路、社交網路等技術的發展,我們正在進入一個大數據的時代。從大數據的理念到Hadoop 開發技術,介紹大數據的書刊紛紛出現,但很多讀者看了後可能仍感到不解渴,究其原因是這些書刊沒有為讀者構建一座連線巨觀的理念和深奧的技術細節之間的橋樑,而有關大數據系統性套用實踐的書籍則更是鳳毛麟角。為此,我向大家推薦這本書,它從大數據技術套用的角度切入,建立了大數據業務價值與技術架構之間的映射關係,內容豐富,條理清晰,深入淺出,繁簡適度,使讀者能夠系統地了解大數據的技術套用體系。
大數據從數據挖掘、商業智慧型發展而來,是信息技術發展的必然產物。國家“十二五”規劃要大力發展包括新一代信息技術在內的戰略性新興產業,大數據就是新一代信息技術的重要領域。它不僅是一次技術領域的革新,因此不僅技術人員必須了解它、研究它、運用它,而且它還將推動企業創新和社會變革,因此各行各業的人員都必須重視它、發展它、推動它。
大數據套用不能一蹴而就,必須遵循科學的方法循序漸進。無論是從業務的角度還是從技術的角度,要將大數據套用講清楚都不大容易,尤其是要使非本領域的專家能對大數據有一個全面的了解更非易事。為了幫助讀者建立起對大數據套用全面、系統的認識,而不只是知道一些零散的技術或服務術語,作者站在系統論的高度對大數據套用做了高度的概括,涵蓋大數據的基本概念、業務需求、技術架構、套用集成、實踐方法、產業鏈和制度保障等七個方面,也構成了本書的七個章節。這種結構化、系統化的思想貫穿全書,成為本書的一大特色。這不僅對一般讀者,而且對與大數據有關的管理人員和技術人員,都有幫助,使他們可以全面深刻地理解和把握複雜的大數據。
作者提出了大數據套用的業務流程,分析了行業共性業務需求和個性業務需求,並且詳細闡述了滿足這些業務需求的大數據技術,也介紹了新的大數據技術和現有技術架構的整合。大數據在一些網際網路公司有了很好的套用,其他行業也在關注大數據。本書列舉出一些實例,給出了大數據套用的流程和方法論,強調了大數據對商業社會的巨大的變革力量。雖然大數據還是一個新事物,開始時人們難免對其有所懷疑,不敢貿然使用,但越來越多的“吃螃蟹者”已經證明大數據能創造重大的社會效益和經濟效益。在當前這場大數據引領的變革浪潮面前,我們應當直面挑戰、勇於創新,大膽地套用大數據技術。實際上,在激烈的市場競爭中,不創新的風險往往比創新的風險更大。
本書對大數據的寫作高屋建瓴、深入淺出,這與作者的背景是分不開的。趙剛博士一直在中國電子信息產業發展研究院從事信息技術套用研究、諮詢和實踐工作,承擔了多項信息技術戰略規劃和套用實施項目,有豐富的企業級信息架構的規劃和建設經驗。2013年,又創辦了北京賽智時代信息技術諮詢公司,致力於企業級大數據技術的套用諮詢和實施工作,發布了銀行、保險、電子商務等行業大數據套用研究報告,在大數據套用領域做了很多工作。作者從事產業研究、信息化諮詢和信息系統集成的多重背景和學術造詣,使作者能把大數據的業務需求、技術架構和產業鏈分析在一本書中上下呼應、融會貫通地闡述清晰。
作者在本書最後提出,大數據是中國國內企業迎頭趕上的大好機會。我們相信,越來越多的中國大數據公司將會用自己的創新實踐證明這一點,中國完全有可能乘大數據的變革之機實現中國信息產業的跨越式發展。
綜上所述,本書可以為一切想了解大數據技術套用、建設大數據企業級套用架構、享受大數據分析之美的讀者提供一把開啟大數據世界的鑰匙,即使是對大數據有所研究的人士,本書系統性的視角也可以使他們了解全局、開闊思路,本書具有很高的參考價值。
前言
隨著網際網路、移動網際網路、社交網路、物聯網、雲計算等新一代信息技術的套用和推廣,人類產生的數據成倍增長,數據種類繁多,數據在寬頻網路中高速流動,數據的待開發價值越來越大,我們已經進入了大數據時代!短短兩三年,大數據的理念已經深入人心,大數據的技術也層出不窮,但大數據技術的套用才剛剛開始。本書把闡述的視角放在了大數據的技術套用上,通過分析大數據套用的關鍵成功因素,希望為政府、行業和企業的大數據技術開發和套用人員提供一本框架性和系統性的技術與套用實踐指南。
全書共分為7 章。
第1 章是大數據的概念和發展背景,回顧大數據理念和技術的發展歷程,梳理大數據發展脈絡,並從大數據的體量、數據類型、速度和潛在價值等4 個特徵定義大數據。
大數據的技術套用是為了實現業務的價值,所以第2 章分析大數據套用的業務需求,梳理企業級大數據套用的業務流程,剖析大數據套用對於組織的業務價值,並深入分析網際網路、零售、金融、電信、能源等9 個行業的大數據套用需求,總結企業級大數據套用的客戶分析、績效分析和風險分析等共性需求。
第3 章闡述大數據套用的總體架構和關鍵技術。總體架構分析基於Apache 開源的大數據平台總體架構參考模型,涵蓋了大數據處理、大數據存儲、大數據訪問、大數據調度、大數據分析展現、大數據與傳統資料庫連線、大數據管理、安全和備份恢復框架等技術,它能夠為企業建設大數據套用平台提供框架參考。基於這一架構,本章進一步詳細介紹了大數據存儲和處理、大數據查詢分析、大數據高級分析和可視化等3 個方面的關鍵技術。Hadoop 是大數據技術的核心,本章詳細介紹了Hadoop 三大核心技術,即分散式檔案系統HDFS、分散式計算框架MapReduce、分散式資料庫HBase 的技術原理、技術構成和套用示例,也介紹了Hadoop 之外的記憶體計算、流計算等框架。大數據查詢和分析技術介紹了SQL on Hadoop 技術,包括Hive、Impala 等技術。大數據高級分析和可視化技術也是大數據的關鍵技術,本章總體闡述了大數據挖掘與高級分析的算法和技術,對非結構化複雜數據分析、預測分析和開源的R 語言進行了重點介紹,並介紹了大數據可視化的一些工具。
第4 章闡述大數據技術套用與企業級套用系統的整合策略。現有企業級數據分析是以關係型資料庫為基礎的,建立了涵蓋網路、存儲、伺服器、虛擬化、雲計算和信息安全等方面的企業IT 架構,大數據技術的企業級套用需要實現與這些技術的高效整合,構建新一代的企業級套用架構。本章分別介紹了大數據傳輸、集成和流程化管理,大數據與存儲架構的整合,大數據對網路架構的發展,大數據與虛擬化技術的整合,雲計算平台上的大數據云,以及大數據與信息安全等6 個方面的內容。
第5 章介紹了大數據企業級套用的實踐方法論和套用案例。大數據套用的實踐方法論闡述了業務需求定義、現狀分析、架構規劃和設計、技術切入與實施,以及試用、評估和推廣等大數據套用的開發流程。對亞馬遜、雅虎、淘寶等網際網路企業套用案例的分析,則試圖給大數據技術套用實踐提供技術細節和實施規模的參考。
第6 章介紹了大數據套用的主流商業解決方案,首先介紹大數據產業鏈上的主要廠商,並進一步介紹了9 家主流廠商的解決方案。
第7 章是對大數據套用中未來挑戰和發展趨勢的分析。主要討論了隱私保護、技術標準、大數據治理等套用發展中的關鍵挑戰和應對策略,最後預測了大數據套用下商業生活的發展趨勢。