出版信息
ISBN:9787122127082
定價:68.00元
作者:陸文聰、李國正、劉亮、包新華 著
出版社:化學工業出版社
出版時間:2012年02月
版次:1-1
裝幀:精
字數:289千字
開卷分類:自然科學
內容簡介
本書主要介紹了化學常用數據挖掘方法和技術的基本原理,並重點介紹了模式識別、支持向量機、集成學習方法在材料設計、工業最佳化、構效關係、生物信息學等領域的套用研究實例。書中所有套用研究實例全部取自作者的套用研究課題,有關算法程式可採用作者開發的套用軟體HyperMiner(見附錄1)。 本書可供化學、化工及相關領域的科研人員和工程技術人員閱讀,亦可作為高等學校的教學參考書。
目錄
1 化學數據挖掘綜述
1.1 化學數據挖掘的目的和意義
1.1.1 數據挖掘與材料設計
1.1.2 數據挖掘與構效關係
1.1.3 數據挖掘與工業最佳化
1.2 化學數據挖掘方法概要
1.3 化學數據挖掘套用進展
1.3.1 機器學習的數學本質
1.3.2 統計模型的“過擬合”問題
1.3.3 模式識別最佳化算法及其改進
1.3.4 支持向量機算法的套用效果
1.3.5 建立綜合運用多種算法的數據處理平台
參考文獻
2 模式識別基本原理和方法
2.1 模式識別方法的基本原理和預備知識
2.2 模式識別經典方法
2.2.1 最近鄰方法
2.2.2 主成分分析方法
2.2.3 多重判別矢量和Fisher判別矢量方法
2.2.4 偏最小二乘方法
2.2.5 非線性映照方法
2.3 模式識別套用技術
2.3.1 最佳投影識別方法
2.3.2 超多面體建模
2.3.3 逐級投影建模方法
2.3.4 最佳投影回歸方法
2.3.5 模式識別逆投影方法
2.4 決策樹算法
2.4.1 C4.5算法
2.4.2 隨機決策樹算法
2.4.3 隨機森林算法
參考文獻
3 人工神經網路和遺傳算法
3.1 人工神經網路
3.1.1 反向人工神經網路
3.1.2 Kohonen自組織網路
3.2 遺傳算法
參考文獻
4 支持向量機方法
4.1 統計學習理論(SLT)簡介
4.1.1 背景
4.1.2 原理
4.2 支持向量分類(SVC)算法
4.2.1 線性可分情形
4.2.2 非線性可分情形
4.3 支持向量機(SVM)的核函式
4.4 支持向量回歸(SVR)方法
4.4.1 線性回歸情形
4.4.2 非線性回歸情形
4.5 支持向量機分類與回歸算法的實現
4.6 套用前景
參考文獻
5 集成學習方法
5.1 集成學習算法概述
5.2 Boosting算法
5.3 Adaboost算法
5.4 Bagging算法
參考文獻
6 特徵選擇方法和套用
6.1 特徵選擇研究概述
6.2 基於支持向量分類的特徵選擇
6.2.1 後向浮動搜尋算法
6.2.2 用SVM?BFS進行特徵選擇
6.3 支持向量回歸的特徵選擇
6.3.1 PRIFER算法
6.3.2 計算結果的評價準則
6.3.3 PRIFER方法與常規計算方法的結果比較
6.4 集成學習及其特徵選擇
6.4.1 個體子集的特徵選擇
6.4.2 基於預報風險的特徵選擇
6.4.3 PRIFEB算法
6.4.4 UCI數據集上的計算結果
參考文獻
7 鈣鈦礦型離子導體導電性的數據挖掘
7.1 鈣鈦礦型離子導體與燃料電池材料
7.2 鈣鈦礦的結構特性
7.3 鈣鈦礦型晶體的原子參數
7.3.1 鈣鈦礦容忍因子
7.3.2 鈣鈦礦平均離子半徑
7.3.3 鈣鈦礦單位晶格邊值與臨界半徑
7.3.4 鈣鈦礦組成元素的電負性
7.3.5 鈣鈦礦平均離子極化率與所帶電荷
7.3.6 鈣鈦礦原子參數與量化參數的組合
7.4 鈣鈦礦離子導體數據的收集
7.5 數據集的自變數篩選
7.5.1 自變數的經典統計相關性分析
7.5.2 貝葉斯網路進行變數關聯性分析
7.5.3 前進?後退法進行自變數篩選
7.6 多種數據挖掘方法建立原子參數?鈣鈦礦導電能力模型
7.6.1 PLS,BP?ANN與SVR建立的回歸模型
7.6.2 回歸模型的留一法交叉驗證與獨立測試集驗證
7.6.3 SVR模型的敏感性分析
參考文獻
8 熔鹽相圖資料庫的數據挖掘
8.1 相圖計算的意義
8.2 原子參數?模式識別方法概述
8.3 智慧型資料庫技術在材料科學中的套用
8.4 熔鹽相圖智慧型資料庫的研究和開發
8.5 判別鹵化物體系是否形成中間化合物
8.6 白鎢礦結構物相含稀土異價固溶體的形成規律
8.6.1 白鎢礦型物相及其異價固溶體的形成規律
8.6.2 白鎢礦型MⅠM′Ⅲ(XO4)2(X=Mo,W)物相及其異價固溶體的形成規律
8.7 鈣鈦礦及類鈣鈦礦結構的物相的若干規律性
8.7.1 鈣鈦礦結構的復鹵化物的若干規律性
8.7.2 含鈣鈦礦結構層的夾層化合物的規律
參考文獻
9 鍍錫薄鋼板質量的數據挖掘
9.1 鍍錫薄鋼板的發展
9.2 鍍錫板生產過程簡介
9.3 鍍錫板耐蝕性能與工業生產軟熔條件的關係
9.4 鍍錫板耐蝕性能與實驗室模擬軟熔條件的關係
9.5 工業生產中防止淬水斑產生的數學模型
9.6 鍍錫板淬水斑的實驗室模擬研究
參考文獻
10 合成氨生產效益的數據挖掘
10.1 氨合成裝置簡介
10.1.1 生產原理
10.1.2 生產流程
10.1.3 生產數據的複雜性和數據挖掘的必要性
10.2 DMOS合成氨最佳化系統的開發
10.2.1 DMOS合成氨最佳化系統簡介
10.2.2 DMOS合成氨最佳化系統離線版軟體
10.2.3 DMOS合成氨最佳化系統線上版軟體
10.2.4 DMOS合成氨最佳化系統最佳化生產實施步驟
10.2.5 DMOS合成氨最佳化系統主要特點
10.3 氨合成裝置生產最佳化模型的研究
10.3.1 數據集
10.3.2 1號合成塔生產最佳化數學模型
10.4 討論和結論
參考文獻
11 分子結構性質關係的數據挖掘
11.1 偶氮染料最大吸收波長的支持向量回歸模型
11.1.1 分子結構特徵參數的計算和篩選
11.1.2 支持向量回歸的計算結果
11.1.3 討論
11.2 胍類化合物Na/H交換抑制活性的支持向量分類模型
11.2.1 特徵參數的計算與篩選
11.2.2 支持向量分類的計算結果
11.2.3 與其他方法的比較
11.3 抗愛滋病藥物HEPT活性的支持向量分類模型
11.3.1 特徵參數的計算與篩選
11.3.2 支持向量分類的計算結果
11.3.3 與其他方法的比較
11.4 三唑類化合物分子篩選的最佳投影識別模型
11.4.1 特徵參數的計算和篩選
11.4.2 特徵參數間的共線性檢查
11.4.3 OPR法的計算
11.4.4 OPR法的測試結果
11.4.5 結論
參考文獻
12 HIV?1蛋白酶特異性位點的數據挖掘
12.1 數據集準備
12.2 mRMR方法和特徵選取
12.3 不同的特徵子集建模預報能力比較
12.4 特徵分析和結論
參考文獻
13 蛋白質結構及功能類型預測
13.1 用集成學習方法預測蛋白質的亞細胞定位
13.1.1 蛋白質亞細胞定位的生物學基礎及研究現狀
13.1.2 蛋白質亞細胞定位數據集以及特徵參數的提取
13.1.3 亞細胞定位預測中模型參數的選擇與模型的驗證
13.1.4 分析與討論
13.2 蛋白質結構類型的集成學習方法預測
13.2.1 蛋白質結構類型簡介及研究現狀
13.2.2 數據集以及特徵參數的提取
13.2.3 預測蛋白質結構類型時的模型參數選擇與模型驗證
13.2.4 分析與討論
13.3 膜蛋白類型的集成學習方法預測
13.3.1 膜蛋白簡介及計算預測研究現狀
13.3.2 膜蛋白預測的數據集以及特徵參數的提取
13.3.3 預測膜蛋白質類型的模型參數選擇與模型驗證
13.3.4 預測膜蛋白質類型的模型變數分析
13.4 蛋白質亞細胞定位和膜蛋白類型預報的線上Web服務
參考文獻
附錄1 “HyperMiner數據挖掘軟體”下載和套用說明
一、軟體簡介和下載方法
二、套用案例:V?PTC材料最佳配方及最佳工藝條件的探索
附錄2 第6章所用的數據集
一、大腦膠質瘤數據集
二、多元校正數據集
三、基因晶片數據集
參考文獻