數據挖掘技術與工程實踐

數據挖掘技術與工程實踐

《數據挖掘技術與工程實踐》是2014年10月1日機械工業出版社出版的圖書,作者是[加] 洪松林、[中] 莊映輝、[中] 李堃 。

基本介紹

  • 中文名:數據挖掘技術與工程實踐
  • 作者:[加] 洪松林、[中] 莊映輝、[中] 李堃
  • 出版社:機械工業出版社
  • ISBN:9787111480761
內容簡介,圖書目錄,

內容簡介

由資深數據挖掘技術專家撰寫,深入學習數據挖掘技術並進行工程實踐的必讀之作;
從基本概念到數據挖掘套用系統開發,包含數據挖掘實踐的全過程與經驗總結。
更多精彩,點擊進入華章品牌店查閱>>

圖書目錄

前 言
第1章 數據挖掘套用緒論1
1.1 認識數據挖掘1
1.1.1 數據挖掘概念2
1.1.2 數據挖掘與生活4
1.1.3 數據挖掘與知識6
1.2 數據挖掘套用基礎6
1.2.1 事物與維度7
1.2.2 分布與關係9
1.2.3 描繪與預測11
1.2.4 現象和知識13
1.2.5 規律與因果13
1.3 數據挖掘套用系統工程14
1.3.1 數據層14
1.3.2 算法層18
1.3.3 套用層23
1.4 數據挖掘套用體會26
1.4.1 項目關鍵點26
1.4.2 技術與套用創新27
1.4.3 經驗積累與套用28
1.5 無限三維嵌套空間假說28
1.5.1 一維空間29
1.5.2 二維空間29
1.5.3 三維空間29
1.5.4 突破三維空間30
1.5.5 五維空間31
1.5.6 六維空間31
1.6 本章小結32
第2章 數據探索與準備33
2.1 數據關係探索34
2.1.1 業務發現34
2.1.2 關係發現36
2.1.3 數據質量探索37
2.1.4 數據整合40
2.2 數據特徵探索42
2.2.1 數據的統計學特徵42
2.2.2 統計學特徵套用48
2.3 數據選擇52
2.3.1 適當的數據規模52
2.3.2 數據的代表性53
2.3.3 數據的選取54
2.4 數據處理56
2.4.1 數據標準化57
2.4.2 數據離散化58
2.5 統計學算法的數量條件60
2.5.1 樣本量估計概念60
2.5.2 單樣本總體均值比較的樣本量估計(T-Test)61
2.5.3 兩樣本總體均值比較的樣本量估計(T-Test)62
2.5.4 多樣本總體均值比較的樣本量估計(F-Test)63
2.5.5 區組設計多樣本總體均值比較的樣本量估計(F-Test)66
2.5.6 直線回歸與相關的樣本量估計66
2.5.7 對照分析的樣本量估計67
2.6 數據探索套用68
2.6.1 檢驗項的疾病分布69
2.6.2 疾病中檢驗項的分布70
2.6.3 成對檢驗項的相關分析71
2.6.4 兩種藥物的套用分析71
2.7 本章小結73
第3章 數據挖掘套用算法74
3.1 聚類分析74
3.1.1 劃分聚類算法(K均值)75
3.1.2 層次聚類算法(組平均)79
3.1.3 密度聚類算法84
3.2 特性選擇85
3.2.1 特性選擇概念85
3.2.2 線性相關算法90
3.2.3 相關因子SRCF算法91
3.3 特徵抽取100
3.3.1 主成分分析算法101
3.3.2 因子分析算法102
3.3.3 非負矩陣因子分解NMF算法103
3.4 關聯規則104
3.4.1 關聯規則概念105
3.4.2 Apriori算法105
3.4.3 FP樹頻集算法106
3.4.4 提升Lift107
3.5 分類和預測107
3.5.1 支持向量機107
3.5.2 Logistic回歸算法112
3.5.3 樸素貝葉斯分類算法115
3.5.4 決策樹121
3.5.5 人工神經網路125
3.5.6 分類與聚類的關係129
3.6 時間序列129
3.6.1 灰色系統預測模型129
3.6.2 ARIMA模型預測135
3.7 本章小結136
第4章 數據挖掘套用案例137
4.1 特性選擇的套用137
4.1.1 數據整合137
4.1.2 數據描繪138
4.1.3 數據標準化139
4.1.4 特性選擇探索139
4.2 分類模型的套用——算法比較144
4.2.1 數據整合144
4.2.2 數據描繪145
4.2.3 數據標準化148
4.2.4 特性選擇探索148
4.2.5 分類模型150
4.3 分類模型的套用——網路異常偵測151
4.3.1 計算機網路異常行為152
4.3.2 網路異常數據模型152
4.3.3 分類模型算法套用156
4.4 算法的綜合套用——腫瘤標誌物的研究159
4.4.1 樣本選取160
4.4.2 癌胚抗原臨床特徵主題分析164
4.4.3 癌胚抗原臨床特徵規則分析167
4.4.4 癌胚抗原臨床特徵規則的比較分析172
4.4.5 癌胚抗原相關因子分析173
4.4.6 不同等級癌胚抗原組差異分析176
4.5 數據挖掘在其他領域中的套用180
4.6 本章小結182
第5章 數據挖掘行業套用原理183
5.1 傳統醫學科研方法的現狀184
5.1.1 傳統醫學科研的命題與假說184
5.1.2 傳統醫學科研的數據套用185
5.1.3 傳統的醫學科研的統計學套用186
5.1.4 傳統醫學科研的流程186
5.2 智慧型醫學科研系統的需求187
5.2.1 臨床醫學科研的問題187
5.2.2 臨床醫學科研的解決思路188
5.3 智慧型醫學科研系統的設計思想190
5.3.1 科研立題190
5.3.2 科研設計與統計分析191
5.3.3 樣本數據收集與分析192
5.4 智慧型醫學科研系統的核心技術方法193
5.5 智慧型醫學科研系統的科研數據倉庫建設194
5.5.1 醫學科研數據倉庫建設的技術方法194
5.5.2 醫學科研數據倉庫的建設過程196
5.5.3 科研數據倉庫的數據安全198
5.6 智慧型醫學科研系統的核心功能設計198
5.7 智慧型醫學科研系統的整體功能設計199
5.7.1 智慧型醫學科研系統主要功能200
5.7.2 智慧型醫學科研系統的模組設計和套用實現202
5.7.3 智慧型醫學科研系統的評估方法211
5.8 智慧型醫學科研系統的套用價值215
5.9 本章小結218
第6章 數據挖掘套用系統的開發219
6.1 數據挖掘套用系統的意義219
6.2 IMRS系統設計221
6.2.1 對數據源的分析221
6.2.2 數據挖掘套用系統IMRS的總體設計224
6.3 IMRS異常偵測模型的開發232
6.3.1 異常偵測模型的功能展示232
6.3.2 數據挖掘技術開發要點236
6.4 IMRS特徵抽取模型的開發242
6.4.1 特徵抽取模型的功能展示242
6.4.2 數據挖掘技術開發要點243
6.5 IMRS智慧型統計模型的開發255
6.5.1 回歸模型的開發實現255
6.5.2 線性相關模型的開發實現267
6.6 IMRS的算法開發271
6.6.1 相關因子算法SRCF的實現271
6.6.2 樸素貝葉斯分類算法的實現275
6.7 本章小結280
第7章 數據挖掘套用系統的套用281
7.1 分布探索282
7.1.1 兩維度聚類模型套用282
7.1.2 高維度聚類模型套用287
7.2 關係探索289
7.2.1 關聯規則的套用289
7.2.2 特性選擇的套用292
7.3 特徵探索297
7.3.1 不穩定心絞痛的特徵總結297
7.3.2 動脈硬化心臟病的臨床特徵302
7.4 異常探索305
7.4.1 生理指標的異常偵測305
7.4.2 異常偵測模型的比較307
7.5 推測探索308
7.6 套用系統的高級套用310
7.6.1 異常偵測的高級用法310
7.6.2 關聯規則的高級套用315
7.7 本章小結320
第8章 數據挖掘工具的套用321
8.1 套用Oracle Data Mining321
8.1.1 ODM數據挖掘流程322
8.1.2 ODM算法模型323
8.1.3 ODM算法套用327
8.2 套用IBM SPSS Modeler351
8.2.1 IBM SPSS Modeler介紹351
8.2.2 SPSS Modeler獨立套用352
8.2.3 SPSS Modeler與套用系統的聯合套用359
8.3 本章小結367
參考文獻368

相關詞條

熱門詞條

聯絡我們