《實驗數據多元統計分析》介紹實驗或測量數據的多元統計分析方法,內容包括:貝葉斯決策、線性判別方法、決策樹判別、人工神經網路、近鄰法、機率密度估計量法、"矩陣判別、函式判別分析、支持向量機法等,以及不同判別方法的比較。此外,還簡要介紹了將多種多元統計分析方法的電腦程式匯集在一起的程式包TMVA(toolkit for multivariate data analysis),並分析了粒子物理實驗數據分析中套用多元統計分析方法的一些實例。
基本介紹
內容簡介,圖書目錄,前言,
內容簡介
《實驗數據多元統計分析》可供實驗物理王作者和大專院校相關專業師生、理論物理研究人員、工程技術人員及從事自然科學和社會科學的數據測量和分析研究人員參考。
圖書目錄
前言
第一章 緒論
1.1 模式和模式識別
1.2 模式識別系統
1.2.1 原始數據獲取
1.2.2 原始數據的預處理
1.2.3 特徵提取和選擇
1.2.4 分類決策
1.3 數據矩陣與樣本空間
1.3.1 數據矩陣與樣本空間
1.3.2 模式的相似性度量
1.3.3 樣本點的權重和特徵向量數據的預處理
1.4 主成分分析
1.4.1 主成分分析的基本思想
1.4.2 主成分分析算法
1.4.3 降維處理及信息損失
第二章 貝葉斯決策
2.1 基於最小錯誤率的貝葉斯決策
2.1.1 決策規則
2.1.2 錯誤率
2.1.3 分類器設計
2.2 Neyman-Pearson決策
2.3 常態分配時的貝葉斯決策
2.4 分類器的效率和錯誤率
2.4.1 分類器的效率、錯誤率和判選率矩陣
2.4.2 錯誤率的上界
2.4.3 利用檢驗樣本集估計判選率矩陣和錯誤率
2.4.4 訓練樣本集和檢驗樣本集的劃分
2.4.5 利用判選率矩陣估計各類“真實”樣本數
2.4.6 分類器判定的“信號”樣本中錯判事例的扣除
2.5 討論
第三章線性判別方法
3.1 線性判別函式
3.1.1 線性判別函式的基本概念
3.1.2 廣義線性判別函式
3.1.3 線性分類器的設計
3.2 Fisher線性判別
3.3 感知準則函式
3.3.1 幾個基本概念
3.3.2 感知準則函式
3.4 最小錯分樣本數準則函式
3.5 最小平方誤差準則函式
3.5.1 平方誤差準則函式及其MSE解
3.5.2 MSE準則函式的梯度下降算法
3.5.3 隨機MSE準則函式及其隨機逼近算法
3.6 多類問題
第四章 決策樹判別
4.1 超長方體分割法
4.1.1 超長方體分割法的基本思想
4.1.2 超長方體分割法中闡值的確定
4.1.3 超長方體分割法的優缺點及其改進
4.1.4 超長方體分割法用於高能物理實驗分析
4.2 決策樹法
4.2.1 決策樹法的基本思想
4.2.2 信號/本底二元決策樹的構建
4.2.3 決策樹的修剪
4.3 決策樹林法
4.3.1 決策樹林的構建
4.3.2 決策樹林對輸入事例的分類
4.3.3 重抽樣法構建決策樹林
第五章 人工神經網路
5.1 概述
5.1.1 生物神經元和人工神經元
5.1.2 人工神經網路的構成和學習規則
5.2 感知器
5.2.1 單輸出單元感知器
5.2.2 多輸出單元感知器
5.3 多層前向神經網路和誤差逆傳播算法
5.3.1 BP網路學習算法
5.3.2 BP網路學習算法的改進
5.4 Hopfield神經網路
5.4.1 離散Hopfield網路
5.4.2 連續Hopfield網路
5.4.3 Hopfield網路在最佳化計算中的套用
5.5 隨機神經網路
5.5.1 隨機神經網路的基本思想
5.5.2 模擬退火算法
5.5.3 Boltzmann機及其工作規則
5.5.4 Boltzmann機學習規則
5.5.5 隨機神經網路小結
5.6 神經網路用於粒子鑑別
5.6.1 用於帶電粒子鑑別的特徵變數
5.6.2 帶電粒子鑑別的神經網路的架構
5.6.3 網路的訓練和粒子鑑別效果
第六章 近鄰法
6.1 最近鄰法
6.2 尼近鄰法
6.3 剪輯近鄰法
6.3.1 兩分剪輯近鄰法
6.3.2 重複剪輯近鄰法
6.4 可作拒絕決策的近鄰法
6.4.1 具有拒絕決策的k近鄰法
6.4.2 具有拒絕決策的剪輯近鄰法
第七章 其他非線性判別方法
7.1 機率密度估計量方法
7.1.1 基本思想
7.1.2 總體機率密度的非參數估計
7.1.3 投影似然比估計
7.1.4 多維機率密度估計
7.1.5 近鄰體積中樣本數的確定
7.1.6 機率密度估計法與神經網路的性能對比
7.2 日矩陣判別
7.3 函式判別分析
7.4 支持向量機
7.4.1 最優分類面
7.4.2 廣義最優分類面
7.4.3 支持向量機
第八章 不同判別方法的比較
8.1 不同判別方法的特點
8.2 多元統計分析程式包TMVA簡介
參考文獻
前言
複雜大系統的科學研究往往都需要收集和處理大量反映系統特徵和運行狀態的數據信息,這類原始數據集合由於樣本數量巨大,刻畫系統特徵的指標變數眾多,並且帶有隨機性質,以致於形成了規模宏大、複雜難辨的數據海洋。利用統計學和數學方法對多維複雜數據集合進行科學的分析,挖掘出隱藏在複雜海量數據中的規律和信息,就是多元統計分析研究的基本內容。