中國雲計算套用叢書:大數據精準挖掘

中國雲計算套用叢書:大數據精準挖掘

本書以新興的大數據時代最實用的技術為支撐,以廣闊的科技視野和紮實的專業功底,全面介紹了大數據時代的由來和背景,闡述了與大數據分析相關的理論和數學模型。特別難能可貴的是,本書從蘊含大數據技術的精準數據挖掘工具入手,結合實際的成功案例,將數據精準挖掘的全過程和詳細步驟,包括結果驗證等方面內容,詳詳細細並非常專業地展現給讀者。本書理論和實踐密切結合,文字流暢,深入淺出,通俗易懂。 通過本書的學習,可以掌握當下大數據所涉及的主要數學分析模組的要點,並比較相互的特點。同時,能夠學會實用的數據挖掘專門技術及經歷數據挖掘的全過程。由於本書所介紹的技術與我國目前大數據運用的領軍行業金融、保險、電信、電子商務等密切相連,故本書有很強的實用性,能達到學以致用、邊學邊用的效果。 本書適合我國IT業的科研機構、相關企業的專業技術人員的學習之用;本書還可以作為政府部門制定大數據發展戰略時的參考。本書也適合全國高等院校的大學生和研究生學習使用;由於本書將理論與具體操作合二為一,故也能作為全國大專院校開設大數據實驗課程的教材。

基本介紹

  • 書名:中國雲計算套用叢書:大數據精準挖掘
  • 作者:吳昱 
  • 出版日期:2014年3月1日
  • 語種:簡體中文
  • ISBN:7122189929
  • 外文名:Accurate Data Mining for Big Data
  • 出版社:化學工業出版社
  • 頁數:174頁
  • 開本:16
  • 品牌:化學工業出版社
基本介紹,內容簡介,作者簡介,圖書目錄,序言,名人推薦,

基本介紹

內容簡介

作者EMC2公司的工作經歷、深厚的專業基礎、精準的數據挖掘工具、結合實踐的成功案例,使本書價值斐然,值得推薦!

作者簡介

吳昱,出生於福建泉州,成長於北京。八十年代中期畢業於山東海洋學院(現中國海洋大學)海洋系。曾從事編輯工作,後赴美留學。九十年代初獲美國OldDominionUniversity物理海洋學博士學位,並先後在馬里蘭大學和美國航空航天局(NASA)Goddard空間飛行中心從事海洋學科研工作。譯作包括《叢林行醫錄》(人民衛生出版社,1984年出版)、《懶惰》(七宗罪叢書之一,三聯書店,2008年出版)。

圖書目錄

第1篇基礎篇
第1章大數據時代下的數據挖掘3
1.1大數據的基礎4
1.1.1大數據呈現出了數據的新價值4
1.1.2數據採集、存儲與提取技術信息化5
1.1.3數據挖掘技術是大數據時代最本質特徵5
1.2大數據的特點6
1.2.1數據規模大6
1.2.2數據類型多6
1.2.3價值密度低,但總體的數據價值高7
1.2.4數據處理有速度要求7
1.3大數據的作用7
1.3.1數據已滲透到社會每個角落8
1.3.2數據成為競爭的新元素8
1.3.3數據創造新價值9
1.3.4大數據地位不斷躍升9
1.4大數據與數據挖掘10
1.4.1數據挖掘技術是大數據時代的靈魂和核心10
1.4.2數據挖掘技術涉及多種多類的知識節點10
1.4.3選擇最好的數據挖掘工具10
1.5令人期待的大數據時代11
1.6本章小結11
第2章大數據與雲計算13
2.1大數據與雲計算13
2.1.1大數據與雲計算關係13
2.1.2大數據擴展了雲計算服務類型14
2.1.3雲計算數據存儲系統得到推廣14
2.1.4追求集成一體化技術14
2.1.5大數據和雲計算缺一不可15
2.2雲計算的定義與特點15
2.2.1雲計算的定義15
2.2.2雲計算的特點15
2.3雲計算的基本架構16
2.3.1雲計算架構的基本層次16
2.3.2雲計算架構的服務層次16
2.4雲計算的關鍵技術17
2.4.1虛擬化技術17
2.4.2數據存儲技術19
2.4.3資源管理技術19
2.4.4雲計算中的編程模型20
2.4.5集成一體化技術21
2.4.6自動化技術21
2.5雲計算的商業模式21
2.5.1商業模式是雲計算的基石21
2.5.2雲計算的市場規模22
2.5.3雲計算商業模式分析22
2.6本章小結23
第2篇理論篇
第3章數據挖掘的主要方法及工具27
3.1數據挖掘主要方法27
3.1.1決策樹分類27
3.1.2神經網路33
3.1.3Logistic回歸方法37
3.1.4聚類分析38
3.1.5數據挖掘方法比較39
3.1.6分類器的評估與選擇40
3.2流行數據分析平台及數據挖掘工具介紹46
3.3本章小結52
第4章Logistic回歸模型53
4.1多元線性回歸模型53
4.2Logistic回歸模型55
4.3Logistic回歸模型的參數估計56
4.4Logistic回歸模型中回歸係數的意義58
4.5Logistic回歸模型的擬合優度63
4.6Logistic回歸係數的顯著性檢驗72
4.7Logistic回歸模型的預測準確性75
4.8回歸變數的選擇與逐步回歸77
4.9本章小結83
第5章數據挖掘建模過程86
5.1CRISPDM86
5.2SAS數據挖掘方法論——SEMMA88
5.3數據挖掘經驗談89
5.4本章小結89
第3篇套用篇
第6章金融行業套用1——信用評分93
6.1國內信用卡業務現狀93
6.2信用評分模型的起源、類別和發展94
6.3信用評分的步驟95
6.4實例演示97
6.4.1二元變數預測建模98
6.4.2圖形版建模輸出講解1——效果評價101
6.4.3圖形版建模輸出講解2——評分卡檔案103
6.5本章小結109
第7章金融行業套用2——信用卡催收評分110
7.1信用卡催收評分模型背景介紹110
7.2實例演示112
7.2.1圖形版連續變數預測建模112
7.2.2圖形版建模輸出114
7.3本章小結116
第8章保險電銷套用——尋找目標客戶117
8.1背景介紹117
8.2案例數據展示及分析118
8.2.1業務目標118
8.2.2數據展示118
8.3數據挖掘與分析過程120
8.3.1數據預處理120
8.3.2造變數122
8.3.3生成挖掘表123
8.3.4建立回響模型125
8.3.5建模結果分析125
8.4數據挖掘結果的運用129
8.5本章小結129
第9章電信行業套用——客戶流失預測131
9.1背景介紹131
9.2案例數據展示及分析131
9.2.1商業理解131
9.2.2數據理解132
9.2.3數據準備132
9.3建立打分模型133
9.4分析建模結果134
9.5數據挖掘結果的運用136
9.6本章小結137
第10章商品零售行業套用——購物籃分析138
10.1某連鎖零售公司的背景介紹138
10.2購物籃分析的基本內容139
10.2.1同次購買的基本概念139
10.2.2同次購買的關聯規則質量的衡量140
10.2.3購買分析的實現141
10.2.4下次購買的基本概念142
10.2.5下次購買行為預測142
10.3購物籃分析——MBA工具的使用145
10.3.1MBA工具的用途145
10.3.2MBA工具的使用146
10.3.3MBA工具的輸出146
10.4本章小結149
第11章實戰項目——交叉銷售150
11.1背景介紹150
11.2案例數據展示及分析151
11.2.1數據展示151
11.2.2業務目標及分析要求152
11.3數據挖掘過程152
11.3.1數據預處理152
11.3.2劃分數據集及生成目標變數153
11.3.3生成衍生變數154
11.3.4生成挖掘表159
11.4建立打分模型160
11.5結果分析161
11.6本章小結162
第12章收益預測163
12.1背景介紹163
12.2數據展示163
12.2.1原始數據集展示163
12.2.2數據挖掘表的生成165
12.3圖形版建模166
12.3.1建模過程166
12.3.2模型輸出166
12.3.3為新數據集打分168
12.4本章小結170
參考文獻172

序言

過去,在產品經濟年代,一提到“基礎設施”,人們便知道這是指:水、電、氣;路、橋、隧;鐵(路)、公(路)、機(場)等。因為原材料與製成品的運輸、產品的製造必須仰仗這些基礎設施。可是在數位化、服務經濟的今天,“基礎設施”還得加上“大、雲、平、移”(大雲平移)這幾項。
那么,何為大雲平移?
大就是大數據,即通過雲計算、移動網際網路等手段,從各類數據中快速獲得有價值信息的能力。它具有體量巨大(Volume)、類型繁多(Variety)、價值低密度(Value)和處理快速(Velocity)的4V特點。它將在海量數據中挖掘事物的規律和特徵,這是傳統科學家和傳統科研方法永遠做不到的。
雲就是雲計算,從本質上說就是一種公共服務,就如100年前電的套用也是公共服務一樣,現已證明雲的普及只是轉瞬之間發生的事。
平就是平台,有交易平台、媒體平台、支付平台、軟體平台等。全球品牌500強前十名中有6個是平台型企業;中國500強企業前40名中,利潤最豐厚的是平台型企業,如百度、網易、騰訊、阿里巴巴等。平台型企業是當下企業的巨無霸。
移就是移動網際網路,即網際網路加移動通信,近年來它在國內外的發展極為迅速,未來十年,它的全方位套用將讓人怦然心動。
作為一種基礎設施,大雲平移正影響著許多產業。比如銀行的前台(業務部門、市場拓展)、中台(信貸審批、市場監控、風險管理、規劃與財務、政策管理與監管合規)與後台(集中處理、信息系統、呼叫中心、集團後勤),都有體現。2008年,銀行後台開始套用這些基礎設施;2009年,前台也開始運用大數據作分析,包括客戶分級、精準行銷、易流失客戶群體的評判等。至於中台,例如銀行規劃商業網點的布點布局問題,在產品經濟時代,只是簡單地套用線性規劃、運籌學就可以確定了。而在目前的數位化服務經濟時代,銀行商業網點布局會從資金流、信息流出發,更多地採用數位化、大數據等技術來解決。比如IBM提供的MCLP(最大覆蓋選址)技術,其最佳化後的整體解決方案就很有效。
大雲平移,精彩無比,但入門之功源起(大)數據挖掘。數據挖掘(DataMining)是從大量的、不完全的、模糊的、隨機的、實際套用的數據中提取潛在有用的信息和知識的過程,可以幫助決策者找尋規律、預測趨勢、防範疏漏。數據挖掘是一門交叉學科,涉及資料庫、人工智慧、機器學習、統計學、模式識別、高性能計算等等。
一些專家認為,數據挖掘的一般過程是:①數據準備(包括數據清理、數據集成和數據選擇等);②數據挖掘;③模式評估;④知識表示。常用的數據挖掘模式包括:關聯規則模式、生物數據的序列比對、圖模式、空間數據挖掘模式等。據國際知名權威機構IDC對歐洲和北美62家採用了數據挖掘技術的企業的調查分析發現,這些企業的3年平均投資回報率為401%,其中25家企業的投資回報率超過600%!
海量數據是金礦銀礦,但海量數據不是金銀財寶。挖掘、採集礦藏並篩選冶煉之後才能獲取財富。面對浩瀚的結構性、非結構性的海量數據,傳統技術已蒼白無力。不過,知識就是力量,近年來國內外已出版了多本有關大數據的書籍,可資學習。但迄至今日,概念類的偏多,套用性強的書籍不多,業界和企業亟盼急需的是實用的大數據技術及成功案例。《大數據精準挖掘》是握有國內外眾多成功案例、講授國內外有效地套用據數挖掘原理與操作的一本新書、好書。
“基礎在(大)數據、遊走在雲端,運作在平台、勝出在移動”是阿里巴巴、騰訊等企業的成功秘籍之一。如果說這一秘籍昭示了在未來“大雲平移”是企業不可或缺的、時時處處都將使用的基礎設施的話,那么,《大數據精準挖掘》從套用數學的角度揭示了數據挖掘將是構造這一基礎設施的基礎設施。

中歐國際工商學院院長、管理學教授
上海數位化與網際網路研究中心主任

2013年8月

名人推薦

雲計算是IT領域內計算模式、技術、產業、套用的新一輪革新。近年來,IT領域又一次顛覆性的技術變革——“大數據”時代已經降臨。深度融合“雲計算”與“大數據”的技術、產業與套用必將深刻變革人類社會的方方面面,成為我國科技創新大業的重要組成部分,為中華民族復興偉業作出重要的貢獻。期望《中國雲計算套用叢書》能在這次革新浪潮中作出積極的貢獻。
——中國工程院院士 李伯黨
雲計算是一種理念,它正在引起數據處理與服務的革命,改變我們的社會生活,推動智慧世界的發展。雲計算與大數據革命是管理科學與工程的前沿之一,也是中國管理科學與工程學會主要的學科戰略方向之一。抓住它,就會把挑戰轉化為機會。本叢書是該領域的重要的階段性的概括和對未來發展的探索,它值得高校管理學科的學者與各界相關人士關注,共同探討這一重大科學問題。
——中國管理科學與工程學會常務副理事長 馬慶國
人類社會已進入了全資訊時代,人、物與信息之間的互動越來越廣泛;雲計算作為物聯網的“大腦”,已成為挖掘和利用大數據寶藏的利器。本叢書是中國雲計算套用聯盟集體智慧的結晶,旨在推動雲計算在我國各領域各行業的落地套用。
——中國雲計算套用聯盟主席團主席 湯兵勇
雲計算技術作為信息產業發展的一個新階段,正在改變著我們的生活。今天,每個人都不得不了解一些雲計算的基本知識。本叢書從雲計算技術的概念、原理和套用等多個維度,幫助基層的IT技術人員全面了解雲計算技術和套用知識;幫助決策層洞悉發展方向、制定發晨覘略,是一套難得的雲計算套用指導叢書。叢書將為推動我國信息化建設朝著更高效、更易用和更普及的方向變革作出重要貢獻。
——曙光信息產業股份有限公司總裁
雲計算在中國的發展始於2008年,概念普及於2009年,理念深入於2012年。與世界上多數國家一樣,中國已將雲計算列入國家戰略發展規劃,並賦有特色,主要包括:政府高度重視、中小企業潛力巨大、不同於西方的文化傳統和法律法規。相信本叢書的出版能夠有效地、實際地在幫助中國政府和企業向雲計算的轉型和創新方面盡力所能及之力。
——微軟亞太研發集團中國雲計算創新中心資深技術總監
伴隨著雲計算在技術創新、商業模式、服務交付的不斷融合與成熟,雲計算已經從“雲裡霧裡”的概念熱炒階段進入到真正的“化云為雨”的落地階段。以雲計算、物聯網、大數據、移動計算為核心的平台服務,必將支撐起巨大的平台經濟,為各行業帶來變革性的影響!‘中國雲計算套用叢書》的出版可謂各行各業雲套用的“及時雨”。
——IBM大中華區雲計算實驗室總經理 秦磊

相關詞條

熱門詞條

聯絡我們