單測點與多測點
根據測點數量,參數可以分為單測點參數、雙測點參數和多測點參數(多於2個測點)。如果將一個參數的多個測點看作是具有相同的測量條件和可信賴度的,那么這些測點就是等精度數據,可以看作是多次重複的測量,是準靜態的。
單測點參數的異常點檢測方法
雙測點可以按照單測點進巧檢測後取均值。支持向量回歸機算法中的結構風險函式具有良好的平滑能力,從整體上考慮回歸曲線的平滑性,不傾向於消除個別回歸誤差大的數據點,通過不敏感損失函式f來控制數據集中的異常數據對模型整體回歸效果的影響,這就使得回歸值與異常數據之間的殘差十分明顯,便於異常點的檢測。
拉依達準則不能檢驗樣本量較小的情況,而且要求被檢驗數據序列服從常態分配。在對參數進行預測的回歸分析中,實測值與預測值的誤差分布滿足常態分配。另外由於中位數相對平均數魯棒性好,不易受到異常點的影響,以中位數誤差和中位數絕對偏差代替原來的誤差和標準差提高算法魯棒性。仿真函式驗證採用函式對修正的拉依達準則進行仿真驗證。添加隨機誤差的樣本曲線,以及基於含有隨機誤差的樣本建立支持向量機預測模型得到的預測值。通過對比可以看出,
支持向量機回歸預測的預測值曲線與真實值曲線吻合較好,預測值受異常點影響較小。
多測點參數的異常點檢測方法
狄克遜準則、肖維勒準則、T檢驗法、F檢驗法、拉依達準則不適合檢驗小樣本量的情況,而格拉布斯準則可用於較少數據的異常檢驗。
傳統Grubbs準則
基於平均數及標準差的格拉布斯準則是典型的基於參數統計的異常點檢測方法。格拉布斯準則是以常態分配為前提的,理論嚴謹,使用方便。
改進的Grubbs準則
中位數絕對偏差最早是由Hampel提出的,並且MAD完全不受樣本大小的限制。因此基於中位數及中位數絕對偏差的的統計量也適合小樣本數據。rousseeuw和Verboven在文獻中指出小樣本可以是n≥3。若在一個符合常態分配的數列中,出現少數異常數據干擾的情況下,中位數的魯棒性高於平均值,因此以中位數和中位數絕對偏差改進Grubbs準則可提高準則的魯棒性和穩健性。
單測點與多測點光譜法
單測點光譜
單測點光譜建立臍橙糖度和酸度的預測模型,把第一組的的臍橙樣品作為校正集合,第二組作為預測樣品集合,選擇測量部位1作為單測量的研究位置,第一組60個樣品總共60個光譜數據,第二組20個樣品有20個光譜數據。每組樣品的每個位置的光譜數據、糖度和酸度值都按照標號統一保存,以方便為多測點平均光譜的評判提供精確的數據。用
手持式糖度計WYT-4型和手持式PH計PHSJ-4A型,按照國家標準分別測出每個臍橙樣品在測量部位1處的糖度和酸度,作為單測點樣品糖度和酸度的實際值,分別建立光譜數據和糖酸度實際值的
偏最小二乘法(PLS)模型,用建立的模型來預測第二組的樣品的糖度和酸度,並與第二組每個臍橙樣品的糖度和酸度的實測值相對比,第二組每個臍橙樣品的糖度和酸度用單樣品的糖度和酸度表示。
多測點光譜
多測點平均光譜建立臍橙糖度和酸度的偏最小二乘法(PLS)預測模型,首先把第一組的60個樣品作為校正集,第二組的20個樣品作為預測集合。第一組的每個臍橙樣品在3個測量部位分別測量10次,這樣每個臍橙樣品就有30個光譜數據,然後求30個光譜數據的平均值就是該樣品的光譜數據。第二組每個臍橙樣品的光譜數據和單測點取法類似,在此不多做介紹。用校正集每個臍橙的多測點的平均光譜數據與每個臍橙樣品整體的糖度和酸度實際測量值建立偏最小二乘法(PLS)預測模型,用預測模型來預測第二組臍橙樣品的糖度和酸度值,並與第二組每個臍橙樣品的糖度和酸度的實測值相比較。最後在對比分析單測點光譜與多測點平均光譜分別建立的糖度和酸度偏最小二乘法(PLS)模型精度的差異性。