數據分析與大數據套用

《數據分析與大數據套用》是科學出版社出版的圖書。

基本介紹

  • 中文名:數據分析與大數據套用
  • 作者:陳思華、齊亞偉、楊海文
  • 出版社:科學出版社
  • 出版時間:2022年4月1日
  • 頁數:234 頁
  • 開本:16 開
  • 裝幀:平
  • ISBN:9787030717061
  • 語種:zh-Hans
  • 字數:362000
內容簡介,圖書目錄,

內容簡介

本書以常見的數據分析與大數據套用方法為主線,按照數據採集、數據存儲與管理、數據預處理、數據分析與挖掘的邏輯關係分析大數據時代應如何採用量化方法分析經濟問題。本書在定性分析的基礎上,採用大量的實例和軟體操作插圖來直觀地解釋大數據分析方法的原理和套用,為讀者提供“一站式”服務。同時,通過對線性回歸、邏輯回歸等計量方法,主成分分析、聚類分析等統計方法,以及神經網路、決策樹、隨機森林等機器學習方法的學習,實現大數據背景下傳統計量、統計學數據分析方法向人工智慧、機器學習方法的過渡。

圖書目錄

第1章 大數據分析技術概述 1
1.1 大數據的內涵 1
1.1.1 數據的概念 1
1.1.2 大數據的概念 2
1.1.3 大數據的分類 3
1.1.4 大數據的特徵 4
1.1.5 常見的大數據套用場景 5
1.2 大數據時代企業管理決策面臨的挑戰 7
1.2.1 數據分析人才不足 8
1.2.2 數據分析的局限性 8
1.2.3 傳統觀念根深蒂固 8
1.2.4 數據安全存在隱患 9
1.2.5 未形成有效的大數據思維 9
1.3 大數據對企業管理決策的影響 9
1.3.1 最佳化決策環境 9
1.3.2 提高決策能力 9
1.3.3 改變決策模式 10
1.3.4 提升決策技術 10
1.3.5 完善知識管理 10
1.3.6 改變決策文化 11
1.4 常見的大數據分析技術 11
1.4.1 數據採集 12
1.4.2 數據存儲與管理 14
1.4.3 數據預處理 14
1.4.4 數據分析與挖掘 15
1.4.5 數據可視化 19
1.5 大數據分析工具介紹 20
1.5.1 Hadoop簡介 20
1.5.2 Stata簡介 21
1.5.3 R簡介 21
1.5.4 Python簡介 22
本章小結 25
第2章 大數據的採集 26
2.1 網路爬蟲介紹 26
2.2 網路爬蟲套用 27
2.2.1 網路爬蟲的基本結構及工作流程 28
2.2.2 抓取策略 29
2.3 網路爬蟲程式Web Scraper 30
2.3.1 Web Scraper的下載與安裝 30
2.3.2 Web Scraper的選單介紹 31
2.4 案例分析 32
2.4.1 案例分析一:爬取同花順股票交易信息 32
2.4.2 案例分析二:爬取豆瓣電影Top250的數據 35
2.4.3 案例分析三:爬取百度學術的文獻信息 37
2.5 網路爬蟲的邊界 40
2.5.1 數據的採集途徑 40
2.5.2 數據的採集行為 41
2.5.3 數據的使用目的 41
本章小結 43
第3章 文獻檢索與可視化分析 44
3.1 文獻檢索 44
3.1.1 文獻計量學的建立 44
3.1.2 文獻檢索方法 45
3.1.3 常用的文獻檢索工具 45
3.1.4 常用的文獻檢索技巧 47
3.1.5 檢索文獻導出操作 49
3.2 文獻計量學的分析原理 51
3.3 文獻可視化分析 52
3.3.1 VOSviewer的下載與使用 52
3.3.2 VOSviewer的文獻可視化分析方法 53
3.4 案例分析 55
3.4.1 資料庫文獻的導出 55
3.4.2 VOSviewer的數據導入 56
3.4.3 VOSviewer中的作者合作分析 58
3.4.4 VOSviewer中的文獻耦合分析 64
3.4.5 VOSviewer中的共被引分析 67
本章小結 72
第4章 線性回歸分析 74
4.1 回歸分析概述 74
4.1.1 回歸分析的基本概念 74
4.1.2 總體回歸函式 75
4.1.3 隨機干擾項 77
4.1.4 樣本回歸函式 78
4.1.5 大數據時代對傳統回歸分析的衝擊 80
4.2 線性回歸模型 80
4.2.1 線性回歸模型的概述 80
4.2.2 線性回歸模型的基本假設 81
4.2.3 線性回歸模型的參數估計 84
4.2.4 參數估計量的統計性質 87
4.2.5 線性回歸模型的統計檢驗 89
4.2.6 線性回歸模型的預測 94
4.3 非線性模型的線性化 96
4.3.1 模型的類型與變換 96
4.3.2 非線性模型的線性化實例 97
4.4 含有虛擬變數的線性模型 101
4.4.1 含有虛擬變數的模型 101
4.4.2 虛擬變數的引入 101
4.5 案例分析 107
本章小結 111
第5章 Logit回歸 112
5.1 Logit回歸概述 112
5.1.1 線性機率模型 112
5.1.2 Logit模型的構建 112
5.2 Logit回歸的估計方法 114
5.2.1 最大似然估計法的原理 114
5.2.2 Logit模型的最大似然估計 116
5.3 Logit回歸的解釋 116
5.3.1 邊際效應 116
5.3.2 回歸係數的經濟意義 117
5.4 Logit回歸的評價 118
5.4.1 擬合優度 118
5.4.2 似然比檢驗 118
5.4.3 預測機率 119
5.5 案例分析 120
本章小結 127
第6章 主成分分析 129
6.1 主成分分析的基本原理 129
6.1.1 主成分分析的基本思想 129
6.1.2 主成分分析的基本理論 130
6.1.3 主成分分析的幾何意義 130
6.2 總體主成分分析 132
6.2.1 從協方差矩陣求解主成分 132
6.2.2 總體主成分分析的主要性質 133
6.2.3 主成分的個數 136
6.2.4 從相關係數矩陣出發求解主成分 138
6.3 樣本主成分分析 139
6.3.1 樣本主成分的定義與性質 139
6.3.2 主成分的計算步驟 141
6.4 有關問題的討論 142
6.4.1 關於由協方差矩陣或相關係數矩陣出發求解主成分 142
6.4.2 主成分分析不要求數據來自正態總體 142
6.4.3 主成分分析與重疊信息 143
6.5 案例分析 144
本章小結 153
第7章 聚類分析 154
7.1 聚類分析概述 154
7.1.1 數值變數的相似性測度 154
7.1.2 名義變數的相似性測度 155
7.2 基於層次的聚類方法 156
7.2.1 層次聚類法概述 156
7.2.2 最短距離法 156
7.2.3 最長距離法 158
7.2.4 類間平均法 159
7.2.5 類間重心法 159
7.2.6 離差平方和法 159
7.3 基於劃分的聚類方法 159
7.3.1 均值聚類法概述 160
7.3.2 均值聚類法實例 160
7.4 案例分析 163
本章小結 171
第8章 神經網路 172
8.1 神經元網路 172
8.1.1 神經元模型概述 172
8.1.2 激活函式 173
8.2 感知機與多層網路 174
8.2.1 感知機 174
8.2.2 多層網路 175
8.3 誤差逆傳播算法 176
8.3.1 誤差逆傳播算法概述 176
8.3.2 誤差逆傳播算法公式推導 176
8.3.3 誤差逆傳播算法工作流程 178
8.3.4 過擬合問題 179
8.4 全局最小與局部最小 179
8.5 深度學習 181
8.6 案例分析 182
本章小結 191
第9章 決策樹 193
9.1 決策樹模型與學習 193
9.1.1 決策樹模型 193
9.1.2 決策樹與if-then規則 194
9.1.3 決策樹與條件機率分布 194
9.1.4 決策樹學習 195
9.2 決策樹的特徵選擇 196
9.2.1 特徵選擇問題 196
9.2.2 信息增益 198
9.2.3 信息增益比 200
9.2.4 基尼指數 201
9.3 決策樹的剪枝 201
9.3.1 預剪枝 202
9.3.2 後剪枝 202
9.4 決策樹的生成 204
9.4.1 ID3算法 204
9.4.2 C4.5算法 205
9.4.3 CART算法 205
9.4.4 CART生成 206
9.5 案例分析 210
9.5.1 數據處理 210
9.5.2 決策樹模型建立 212
9.5.3 決策樹剪枝 214
本章小結 217
第10章 隨機森林 218
10.1 集成學習 218
10.1.1 集成學習概述 218
10.1.2 集成學習分類 219
10.2 Bagging算法 219
10.2.1 自助法 219
10.2.2 Bagging算法的具體流程 220
10.3 隨機森林算法介紹 221
10.3.1 隨機森林概述 221
10.3.2 隨機森林的優缺點 221
10.4 模型評估 221
10.4.1 查準率、查全率與 221
10.4.2 ROC與AUC 223
10.5 案例分析 225
10.5.1 iris數據集簡介 225
10.5.2 R語言操作 225
本章小結 228
參考文獻 230

相關詞條

熱門詞條

聯絡我們