《大數據分析與算法》是2018年北京機械工業出版社出版的圖書,作者是 [挪] 拉金德拉·阿卡拉卡(Rajendra Akerkar)、 [印]普里蒂·斯里尼瓦斯·薩加(Priti Srinivas Sajja)。
基本介紹
- 中文名:大數據分析與算法
- 作者: [挪] 拉金德拉·阿卡拉卡(Rajendra Akerkar) / [印]普里蒂·斯里尼瓦斯·薩加(Priti Srinivas Sajja)
- 出版時間:2018年10月30日
- 出版社:北京機械工業出版社
- ISBN:9787111608769
內容簡介,圖書目錄,
內容簡介
本書詳細介紹了數據科學領域的相關智慧型技術, 包括數據分析、基本學習算法、模糊邏輯、人工神經網路、基因算法和進化計算、使用R語言進行大數據分析等。
圖書目錄
譯者序
前言
第1章 緒論 1
1.1 引言 1
1.2 數據科學的歷史 2
1.3 現代商業中數據科學的重要性 3
1.4 數據科學家 5
1.5 三維數據科學活動 6
1.5.1 管理數據流 7
1.5.2 處理數據管理 8
1.5.3 數據分析 11
1.6 數據科學與其他領域交叉 11
1.7 數據分析思維 13
1.8 套用領域 13
1.8.1 資源的可持續發展 13
1.8.2 利用社交平台進行各種活動 14
1.8.3 智慧型Web套用 14
1.8.4 Google自動統計員項目 15
1.9 套用計算智慧型管理數據科學活動 15
1.10 商業中的數據科學場景 17
1.11 有助於數據科學的工具和技術 17
1.11.1 數據清洗工具 18
1.11.2 數據管理和建模工具 19
1.11.3 數據可視化工具 20
1.12 練習 21
參考文獻 22
第2章 數據分析 23
2.1 引言 23
2.2 跨行業標準過程 24
2.3 數據分析生命周期 25
2.4 數據科學項目生命周期 27
2.5 數據分析的複雜性 28
2.6 從數據到洞察力 30
2.7 構建分析能力:銀行案例 31
2.8 數據質量 32
2.9 數據準備過程 33
2.10 溝通分析結果 34
2.10.1 溝通分析結果的策略 34
2.10.2 數據可視化 35
2.10.3 可視化技術 36
2.11 練習 37
參考文獻 37
第3章 基本學習算法 38
3.1 從數據中學習 38
3.2 監督學習 40
3.2.1 線性回歸 40
3.2.2 決策樹 41
3.2.3 隨機森林 46
3.2.4 k-近鄰算法 47
3.2.5 邏輯回歸 49
3.2.6 模型組合器 50
3.2.7 樸素貝葉斯 53
3.2.8 貝葉斯信念網路 54
3.2.9 支持向量機 56
3.3 無監督學習 57
3.3.1 Apriori 算法 58
3.3.2 k-means算法 60
3.3.3 用於數據壓縮的降維 62
3.4 強化學習 62
3.5 案例研究:使用機器學習進行市場行銷活動 65
3.6 練習 66
參考文獻 67
第4章 模糊邏輯 68
4.1 引言 68
4.2 模糊隸屬函式 70
4.2.1 三角形隸屬函式 71
4.2.2 梯形隸屬函式 71
4.2.3 高斯隸屬函式 71
4.2.4 sigmoid隸屬函式 72
4.3 隸屬值分配方法 72
4.4 模糊化與解模糊化方法 73
4.5 模糊集合操作 73
4.5.1 模糊集合的並集 74
4.5.2 模糊集合的交集 74
4.5.3 模糊集合的補集 74
4.6 模糊集合性質 76
4.7 模糊關係 76
4.8 模糊命題 79
4.8.1 模糊連線詞 79
4.8.2 析取 79
4.8.3 合取 80
4.8.4 否定 80
4.8.5 蘊含 80
4.9 模糊推理 80
4.10 基於模糊規則的系統 81
4.11 數據科學的模糊邏輯 82
4.11.1 套用1:Web內容挖掘 83
4.11.2 套用2:Web結構挖掘 84
4.11.3 套用3:Web使用挖掘 85
4.11.4 套用4:環境和社交數據處理 86
4.12 用模糊邏輯進行數據科學活動的工具和技術 87
4.13 練習 88
參考文獻 88
第5章 人工神經網路 89
5.1 引言 89
5.2 符號學習方法 90
5.3 人工神經網路及其特點 91
5.4 ANN模型 93
5.4.1 Hopfield模型 93
5.4.2 感知器模型 94
5.4.3 多層感知器 96
5.4.4 多層感知器的深度學習 98
5.4.5 其他ANN模型 100
5.4.6 線性回歸與神經網路 101
5.5 ANN工具和程式 102
5.6 社交網路平台上的情感挖掘 103
5.6.1 情感挖掘相關工作 103
5.6.2 廣泛架構 104
5.6.3 神經網路設計 104
5.7 套用與挑戰 106
5.8 關注點 107
5.9 練習 108
參考文獻 109
第6章 遺傳算法與進化計算 111
6.1 引言 111
6.2 遺傳算法 112
6.3 遺傳算法的基本原理 114
6.3.1 個體編碼 114
6.3.2 變異 114
6.3.3 交叉 115
6.3.4 適應度函式 116
6.3.5 選擇 116
6.3.6 其他編碼策略 117
6.4 利用遺傳算法進行函式最佳化的實例 118
6.5 模式與模式定理 120
6.5.1 實例、定義位和模式順序 120
6.5.2 模式的重要性 121
6.6 基於特殊套用的遺傳運算元 121
6.7 進化編程 123
6.8 遺傳算法在醫療保健中的套用 124
6.8.1 醫療保健案例 124
6.8.2 基於遺傳算法的病人調度系統 125
6.8.3 編碼候選者 127
6.8.4 種群上的操作 127
6.8.5 其他套用 128
6.9 練習 130
參考文獻 131
第7章 其他元啟發式和分類方法 132
7.1 引言 132
7.2 自適應記憶過程 132
7.2.1 禁忌搜尋 133
7.2.2 分散搜尋 134
7.2.3 路徑重連 136
7.3 群體智慧型 136
7.3.1 蟻群最佳化 137
7.3.2 人工蜂群算法 138
7.3.3 河流形成動力學 139
7.3.4 粒子群最佳化 139
7.3.5 隨機擴散搜尋 141
7.3.6 群體智慧型與大數據 142
7.4 案例推理 142
7.4.1 案例推理中的學習 144
7.4.2 案例推理與數據科學 145
7.4.3 處理複雜的領域 146
7.5 粗糙集 146
7.6 練習 148
參考文獻 148
第8章 分析和大數據 149
8.1 引言 149
8.2 傳統分析與大數據分析 150
8.3 大規模並行處理 152
8.3.1 MapReduce 152
8.3.2 與RDBMS的比較 154
8.3.3 共享存儲的並行編程 155
8.3.4 Apache Hadoop 生態系統 155
8.3.5 Hadoop分散式檔案系統 157
8.4 NoSQL