大數據:技術與套用實踐指南(第2版)

大數據:技術與套用實踐指南(第2版)

《大數據:技術與套用實踐指南(第2版)》是2016年3月電子工業出版社出版的圖書,作者是趙剛 。

基本介紹

  • 書名:大數據:技術與套用實踐指南(第2版)
  • 作者:趙剛 
  • ISBN:978-7-121-28150-1
  • 頁數:316
  • 定價:59.00元
  • 出版社電子工業出版社
  • 出版時間:2016年3月出版
  • 開本:16
內容簡介,編輯推薦,目錄,序,前言,

內容簡介

大數據是網際網路、移動套用、社交網路和物聯網等技術發展的必然趨勢,大數據套用成為當前最為熱門的信息技術套用領域。《大數據:技術與套用實踐指南(第2版)》由淺入深,首先概述性地分析了大數據的發展背景、基本概念,從業務的角度分析了大數據套用的主要業務價值和業務需求,在此基礎上介紹大數據的技術架構和關鍵技術,結合套用實踐,詳細闡述了傳統信息系統與大數據平台的整合策略,大數據套用實踐的流程和方法,並介紹了主要的大數據套用產品和解決方案。最後,對大數據面臨的挑戰和未來的趨勢進行了展望。
《大數據:技術與套用實踐指南(第2版)》既具有技術深度,又具有很強的可操作性,提供了一個系統性、架構性的大數據套用實踐指南,綱要性地指導大數據套用實踐,推動大數據技術在各個行業的廣泛套用。

編輯推薦

1、趙剛博士在信息化領域耕耘10餘年,對大數據的認識深刻且系統。
2、闡述的視角放在了大數據的技術套用上,對於想利用大數據的讀者非常具有參考價值。
3、結合套用實踐,詳細闡述了傳統信息系統與大數據平台的整合策略,大數據套用實踐的流程和方法,並介紹了主要的大數據套用產品和解決方案。

目錄

第1章 大數據的概念和發展背景 1
1.1 大數據的發展背景 1
1.2 大數據的概念和特徵 4
1.2.1 大數據的概念 4
1.2.2 大數據的特徵 4
1.3 大數據的產生 5
1.3.1 數據產生由企業內部向企業外部擴展 5
1.3.2 數據產生從Web 1.0向Web 2.0、從網際網路向移動網際網路擴展 6
1.3.3 數據產生從計算機/網際網路(IT)向物聯網(IOT)擴展 7
1.4 數據的量級 7
1.4.1 數據大小的量級 7
1.4.2 大數據的量級 8
1.5 大量不同的數據類型 8
1.5.1 按照數據結構分類 9
1.5.2 按照產生主體分類 12
1.5.3 按照數據作用方式分類 13
1.6 大數據的速度 14
1.7 大數據的套用價值 14
1.8 大數據的挑戰 15
1.8.1 業務視角不同帶來的挑戰 15
1.8.2 技術架構不同帶來的挑戰 15
1.8.3 管理策略不同帶來的挑戰 16
第2章 大數據套用的業務需求 17
2.1 大數據套用的業務流程 17
2.1.1 產生數據 18
2.1.2 聚集數據 18
2.1.3 分析數據 19
2.1.4 利用數據 19
2.2 大數據套用的業務價值 19
2.2.1 發現大數據的潛在價值 20
2.2.2 發現動態行為數據的價值 20
2.2.3 實現大數據整合創新的價值 20
2.3 各行業大數據套用的個性需求 21
2.3.1 網際網路與電子商務行業 21
2.3.2 零售業 26
2.3.3 金融業 28
2.3.4 政府 31
2.3.5 醫療業 34
2.3.6 能源業 35
2.3.7 製造業 37
2.3.8 電信運營業 38
2.3.9 交通業 40
2.4 企業級大數據套用的共性需求 42
2.4.1 客戶分析 42
2.4.2 績效分析 46
2.4.3 欺詐和風險評估 47
2.5 以銀行客戶分析為例,分析一個大數據的套用場景 48
第3章 大數據套用的總體架構和關鍵技術 51
3.1 總體架構 51
3.1.1 業務目標 51
3.1.2 架構設計原則 52
3.1.3 總體架構參考模型 55
3.1.4 總體架構的特點 58
3.2 大數據存儲和處理技術 59
3.2.1 Hadoop:分散式存儲和計算平台 59
3.2.2 HDFS:分散式檔案系統 65
3.2.3 MapReduce:分散式計算框架 72
3.2.4 NoSQL:分散式資料庫 98
3.2.5 MPP:大規模並行處理系統 113
3.2.6 Spark:輕量級的分散式記憶體計算系統 117
3.2.7 S4和Storm:流計算框架 126
3.2.8 大數據存儲和處理技術的比較分析 132
3.3 大數據查詢和分析技術 133
3.3.1 Hive:基本的Hadoop查詢和分析 134
3.3.2 Hive 2.0:Hive的最佳化和升級 144
3.3.3 實時互動的SQL:Impala和drill 147
3.3.4 基於PostgreSQL的SQL on Hadoop 153
3.4 大數據高級分析和可視化技術 154
3.4.1 傳統數據倉庫與在線上分析處理技術 154
3.4.2 大數據對傳統分析的挑戰 157
3.4.3 大數據挖掘與高級分析 157
3.4.4 大數據挖掘與高級分析庫 162
3.4.5 非結構化複雜數據分析 163
3.4.6 實時預測分析 170
3.4.7 開源可視化工具:R語言 177
3.4.8 可視化技術 185
3.5 以銀行客戶分析為例的大數據套用體系架構 194
第4章 大數據與企業級套用的整合策略 196
4.1 大數據傳輸、接入、整合和流程管理平台 197
4.1.1 數據傳輸 197
4.1.2 數據接入 203
4.1.3 數據整合 207
4.1.4 流程管理 208
4.2 大數據與存儲架構的整合 212
4.2.1 傳統存儲架構比較 212
4.2.2 大數據平台的存儲架構的選擇 214
4.2.3 集群存儲的發展 214
4.2.4 基於HDFS的集群存儲 216
4.2.5 固態硬碟(SSD)對記憶體計算的支持 218
4.2.6 軟體定義存儲(SDS) 218
4.2.7 超融合架構(HCI) 220
4.3 大數據與網路架構的發展 220
4.3.1 統一的乙太網結構 222
4.3.2 軟體定義網路(SDN) 223
4.3.3 網路功能虛擬化(NFV) 226
4.4 大數據與虛擬化技術的整合 228
4.5 大數據與Docker技術 230
4.5.1 Docker概述 230
4.5.2 Docker原理與總體架構 231
4.5.3 Docker與應用程式開發與管理 237
4.6 大數據與雲計算 240
4.7 大數據安全 242
4.8 以銀行客戶分析為例,分析一個大數據的平台整合 244
第5章 大數據套用的實踐方法與案例 246
5.1 實踐方法論 246
5.1.1 業務需求定義 247
5.1.2 數據套用現狀分析與標桿比較 248
5.1.3 大數據套用架構規劃和設計 249
5.1.4 大數據技術切入與實施 250
5.1.5 大數據試用和評估 251
5.1.6 大數據套用推廣 252
5.2 技術套用案例 252
5.2.1 Amazon和Google 252
5.2.2 Yahoo 255
5.2.3 Amazon 257
5.2.4 Facebook 259
5.2.5 Twitter 263
5.2.6 淘寶網 264
5.3 以銀行客戶分析為例的實施案例分析 266
5.3.1 銀行基於大數據的客戶分析的業務需求 266
5.3.2 銀行基於大數據的客戶分析的現狀與標桿比較 267
5.3.3 銀行基於大數據的客戶分析的套用架構規劃與設計 269
5.3.4 銀行基於大數據的數據分析的實施、試點和推廣 269
第6章 大數據套用的主流解決方案 270
6.1 產業鏈 270
6.1.1 國際大數據產業生態 270
6.1.2 國內大數據產業生態 273
6.2 主流廠商解決方案 274
6.2.1 Cloundera 275
6.2.2 Hortonworks 276
6.2.3 MapR 277
6.2.4 IBM 278
6.2.5 Oracle 280
6.2.6 EMC 281
6.2.7 Intel 282
6.2.8 SAP 283
6.2.9 Teradata 285
第7章 大數據套用的未來挑戰和趨勢 286
7.1 隱私保護 286
7.1.1 法律保護 287
7.1.2 技術保護 289
7.1.3 理念革新 290
7.2 技術標準 291
7.2.1 ISO大數據標準化進展 291
7.2.2 大數據基準和基準測試 293
7.2.3 大數據處理分析標準套件 296
7.3 大數據治理 296
7.3.1 數據治理框架 297
7.3.2 數據質量管理 298
7.3.3 大數據的組織、角色和責任 299
7.4 適應商業社會的未來趨勢 300
7.4.1 從產品推銷向數據行銷的轉變 300
7.4.2 從流程驅動到分析驅動的轉變 300
7.4.3 從私有資源到公共服務的轉變 301

隨著新一代信息技術的發展和套用,尤其是網際網路、物聯網、移動網際網路、社交網路等技術的發展,我們正在進入大數據時代。介紹大數據的理念和技術的書刊紛紛出現,但很多讀者看後可能仍感到不解渴,究其原因是這些書刊沒有為讀者構建一座連線巨觀的理念和深奧的技術細節之間的橋樑,而有關大數據系統性套用實踐的書籍更是鳳毛麟角。為此,我向大家推薦這本書,它從大數據技術套用的角度切入,建立了大數據業務價值與技術架構之間的映射關係,內容豐富,條理清晰,深入淺出,難易適度,使讀者能夠系統地了解大數據的技術套用體系。
大數據從數據挖掘、商業智慧型發展而來,是信息技術發展的必然產物。國家“十二五”規劃要大力發展包括新一代信息技術在內的戰略性新興產業,大數據就是新一代信息技術的重要領域。它不僅是一次技術領域的革新,技術人員必須了解它、研究它、運用它,而且它還將推動企業創新和社會變革,因此各行各業的人員都必須重視它、發展它、推動它。
大數據套用不能一蹴而就,必須遵循科學的方法循序漸進。無論是從業務的角度還是從技術的角度,要將大數據套用講清楚都不大容易,尤其是要使非本領域的專家能對大數據有一個全面的了解更非易事。為了幫助讀者對大數據套用有全面、系統的認識,而不只是知道一些零散的技術或服務術語,作者站在系統論的高度對大數據套用做了高度的概括,涵蓋了大數據的基本概念、業務需求、技術架構、套用集成、實踐方法、產業鏈和制度保障等七個方面,也構成了本書的七個章節。這種結構化、系統化的思想貫穿全書,成為本書的一大特色。本書對普通讀者、與大數據有關的管理人員和技術人員都有幫助,可以使他們全面、深刻地理解和把握複雜的大數據。
作者提出了大數據套用的業務流程,分析了行業中的共性業務需求和個性業務需求,並且詳細闡述了滿足這些業務需求的大數據技術,也介紹了新的大數據技術和現有技術架構的整合。大數據在一些網際網路公司有了很好的套用,其他行業也在關注大數據。本書列舉出一些實例,給出了大數據套用的流程和方法論,強調了大數據對商業社會的巨大的變革力量。雖然大數據還是一個新事物,開始時人們難免對其有所懷疑,不敢貿然使用,但越來越多的“吃螃蟹者”已經證明大數據能創造出重大的社會效益和經濟效益。在當前這場大數據引領的變革浪潮面前,我們應當直面挑戰、勇於創新,大膽地套用大數據技術。實際上,在激烈的市場競爭中,不創新的風險往往比創新的風險更大。
本書對大數據的寫作高屋建瓴、深入淺出,這與作者的背景是分不開的。本書作者趙剛博士一直在中國電子信息產業發展研究院從事信息技術套用的研究、諮詢和實踐工作,承擔了多項信息技術戰略規劃和套用實施項目,有豐富的企業級信息架構的規劃和建設經驗。2013年,他又創辦了北京賽智時代信息技術諮詢公司,致力於企業級大數據技術的套用諮詢和實施工作,發布了銀行、保險、電子商務等行業大數據的套用研究報告,在大數據套用領域做了很多工作。從事產業研究、信息化諮詢和信息系統集成的多重背景和學術造詣,使他能把大數據的業務需求、技術架構和產業鏈分析在一本書中上下呼應、融會貫通地闡述清晰。
趙剛博士在本書最後提出,大數據是國內企業迎頭趕上的大好機會。我們相信,國內越來越多的大數據公司將會用自己的創新實踐證明這一點,中國完全有可能乘大數據的變革之機實現中國信息產業的跨越式發展。
綜上所述,本書可以為一切想了解大數據技術套用、建設大數據企業級套用架構、享受大數據分析之美的讀者提供一把開啟大數據世界的鑰匙,即使是對大數據有所研究的人士,本書的系統性的視角也可以使他們了解全局、開闊思路,所以本書具有很高的參考價值。
中國工程院院士 倪光南

前言

隨著網際網路、移動網際網路、社交網路、物聯網、雲計算等新一代信息技術的套用和推廣,人類產生的數據成倍增長,數據種類繁多,數據在寬頻網路中高速流動,數據的待開發價值越來越大,我們已經進入了大數據時代!短短兩三年,大數據的理念已經深入人心,大數據的技術也層出不窮,但大數據技術的套用才剛剛開始。本書把闡述的視角放在了大數據的技術套用上,通過分析大數據套用的關鍵成功因素,希望為政府、行業和企業的大數據技術開發和套用人員提供一本框架性和系統性的技術與套用實踐指南。
全書共分為7章。
第1章是大數據的概念和發展背景,回顧大數據理念和技術的發展歷程,梳理大數據發展脈絡,並從大數據的體量、數據類型、速度和潛在價值等4個特徵定義大數據。
第2章分析大數據套用的業務需求,梳理企業級大數據套用的業務流程,剖析大數據套用對於組織的業務價值,並深入分析網際網路、零售、金融、電信、能源等9個行業的大數據套用需求,總結企業級大數據套用的客戶分析、績效分析和風險分析等共性需求。
第3章闡述大數據套用的總體架構和關鍵技術。總體架構分析基於Apache開源的大數據平台總體架構的參考模型,涵蓋了大數據處理、大數據存儲、大數據訪問、大數據調度、大數據分析展現、大數據與傳統資料庫連線、大數據管理、安全和備份恢復框架等技術,能夠為企業建設大數據套用平台提供框架參考。基於這一架構,本章進一步詳細介紹了大數據存儲和處理、大數據查詢分析、大數據高級分析和可視化等3個方面的關鍵技術。Hadoop是重要的大數據技術,本章詳細介紹了Hadoop的三大核心技術,即分散式檔案系統HDFS、分散式計算框架MapReduce、分散式資料庫HBase的技術原理、技術構成和套用示例,也詳細介紹了Spark等記憶體計算及Storm等流計算框架。針對大數據查詢和分析,本章介紹了SQL on Hadoop技術,包括Hive、Impala等。大數據高級分析和可視化技術也是大數據的關鍵技術,本章總體闡述了大數據挖掘與高級分析的算法和技術,對非結構化的複雜數據的分析、預測分析和開源的R語言進行了重點介紹,並介紹了大數據可視化的一些工具。
第4章闡述大數據技術套用與企業級套用系統的整合策略。現有企業級數據分析是以關係型資料庫為基礎的,建立了涵蓋網路、存儲、伺服器、虛擬化、雲計算和信息安全等方面的企業IT架構,大數據技術的企業級套用需要實現與這些技術的高效整合,構建新一代的企業級套用架構。本章分別介紹了大數據傳輸、接入、集成和流程化管理,大數據與存儲架構的整合,大數據對網路架構的發展,大數據與虛擬化技術的整合,大數據與容器技術的整合,雲計算平台上的大數據云,以及大數據與信息安全等7個方面的內容。
第5章介紹了大數據企業級套用的實踐方法論和套用案例。大數據套用的實踐方法論闡述了業務需求定義、現狀分析、架構規劃與設計、技術切入與實施,以及試用、評估與推廣等大數據套用的開發流程。通過對Google、Yahoo、Facebook、Amzon、淘寶網等網際網路企業套用案例的分析,試圖為大數據技術套用和實踐提供技術細節和實施方法方面的參考。
第6章介紹了大數據套用的主流商業解決方案。首先介紹大數據產業鏈上的主要廠商,並進一步介紹了9家主流廠商的解決方案。
第7章是對大數據套用中未來挑戰和發展趨勢的分析。主要討論了隱私保護、技術標準、大數據治理等套用發展中的關鍵挑戰和應對策略,最後預測了大數據套用下商業生活的發展趨勢。
全書以某商業銀行基於大數據的客戶分析為案例,便於讀者根據案例所闡述的套用場景,結合自身的需求學習和掌握大數據技術套用。
本書的寫作最大程度地得益於從事大數據技術研發、套用和研究的社區、業界同仁和愛好者。筆者起的作用僅僅是穿針引線,將大數據技術套用開拓者們分享的研究和套用心得進行了總結,希望有助於更多技術研發、套用人員和愛好者系統地學習和套用大數據。本書也提供了這些成果的網上連結,讀者可以更加深入地去學習和研究。當然,本書基於作者在信息化領域多年的研究、諮詢和系統集成的實踐經驗,也基於作者所創立的北京賽智時代信息技術諮詢有限公司在大數據領域的研究成果。本書引用了CIOManage(賽智諮詢)的很多研究成果。感謝所有為大數據技術的套用而努力的同仁們!
本書再版之際,筆者誠惶誠恐,大數據技術遠未成熟,大數據技術套用也剛剛拉開帷幕,這樣一本技術套用實踐指南一定存在諸多問題。但技術套用本來就是一個不斷改進和最佳化的過程,希望筆者和讀者在共同學習和套用的過程中,逐步總結出更為精確和實用的經驗。歡迎讀者與筆者交流,筆者的聯繫信息如下。
趙剛
2016年1月5日於北京嘉銘園

相關詞條

熱門詞條

聯絡我們