基本介紹
- 中文名:無信息變數消除法
- 外文名:uniformative variable elimination
- 縮寫:UVE
- 提出:Centner等人
- 套用:分析NIR光譜數據
- 優點:降低模型的複雜性,改善PLS模型
無信息變數消除法研究背景,無信息變數消除法原理,無信息變數消除法套用實例,樣品數據,數據處理,
無信息變數消除法研究背景
化學計量學的多元校正方法中,偏最小二乘法(partial least squares,PLS)是目前使用得最多的方法,它很容易用於處理數據量很大的光譜數據,提取相關的信息,建立一個可靠的模型,不過這個模型很複雜。傳統觀點認為PLS具有較強的抗干擾能力,對噪聲不敏感,因此在PLS建模前不需要對光譜數據進行特徵提取。隨著對PLS的深入研究和套用,最近人們已經認識到有效的特徵提取能夠很大程度提高模型的預測能力和簡化模型。
目前,波長變數篩選的方法主要有相關係數法,逐步回歸法,無信息變數消除法(UVE),遺傳算法(genetic algorithm,GA)等,其中無信息變數消除法的研究和套用在國內的報導較少。無信息變數消除算法是新的變數篩選方法,該算法最初由Centner等人提出來,並用於NIR光譜數據,其目的是為了減少最終PLS模型中包含的變數數,降低模型的複雜性,改善PLS模型,還與其它相關方法進行了比較,UVE方法得到的結果的SEP最小。
無信息變數消除法原理
無信息變數消除法是基於分析PLS回歸係數b的算法,用於消除那些不提供信息的變數。在近紅外光譜法的PLS回歸模型中,光譜矩陣X和濃度矩陣Y存在如下的關係:
Y=Xb+e
其中b是回歸係數向量,e是誤差向量。無信息變數消除法就是把相同於自變數矩陣的變數數目的隨機變數矩陣(這裡等同於噪音)加入光譜矩陣中,然後通過交叉驗證的逐一剔除法建立PLS模型,得到回歸係數矩陣B,分析回歸係數矩陣中回歸係數向量b的平均值和標準偏差(用)的商C的穩定性(或可靠性),即有如下表達式:
Ci=mean(bi)/S(bi)
其中mean(bi)表示回歸係數向量b的平均值,S(bi)表示回歸係數向量b的標準偏差,i表示光譜矩陣中第i列向量。根據Ci的絕對值大小確定是否把第i列變數用於最後PLS回歸模型中。具體的算法如下:
(1)將校正集光譜矩陣X(n×m)和濃度矩陣Y(n×1)進行PLS回歸,並選取最佳主因子數f,矩陣中的n表示樣品的數目,m表示波長變數的數目,下面的也一樣;
(2)人為產生一隨機噪聲矩陣R(n×m),將X與R組合形成矩陣XR(n×2m),該矩陣前m列為X,後m列為R;
(3)對矩陣XR和Y進行PLS回歸,每次剔除一個樣品的互動驗證,每次得一個回歸係數向量b,共得到n個PLS回歸係數組成矩陣B(n×2m);
(4)按列計算矩陣B(n×2m)的標準偏差S(b)和平均值mean(b),然後計算Ci=mean(bi)/S(bi)
,i=1,2...,2m;
(5)在[m+1,2m]區間取C的最大絕對值Cmax=max(abs(C));
(6)在[[1,m]區間去除矩陣X對應Ci<Cmax的變數,並將剩餘變數組成經UVE方法選取的新矩陣XUVE。
無信息變數消除法套用實例
樣品數據
我們得到80個玉米樣品的近紅外光譜,光譜的波長範圍是1100-2498nm,解析度為2nm,每條大譜有700個波長變數,測定玉米中的蛋白質,澱粉兩種主要成分含量。
數據處理
樣品集的劃分
為了選擇具有代表性的校正樣品集,樣品集的劃分採用了Kennard-Stone算法(簡稱K-S)。K-S算法是根據己經被選擇的樣品計算未被選擇的樣品的最小歐式距離,然後選擇計算出來的歐式距離最大的樣品進入校正集,如此反覆,直至選出指定的樣品數。K-S算法已經被證明在選擇代表性樣品方面有較好的效果。玉米的樣品集,其中校正集60個樣品,預測集20個樣品。
光譜教據預處理和全譜建模
樣品的近紅外光譜存在基線漂移,為此建模前要對光譜進行基線校正,採用多元散射校正(multiplicative scatter correction,MSC)、標準正態變數變換(standard normal variate transformation,SNV)、去趨勢法(Detrending)和基於Savitzky-Golay算法的一階導數處理後的進行偏最小二乘回歸建模結果比較。其中偏最小二乘回歸使用非線性疊代算法(nonlinear iterative partial least squires,NIPALS),該算法的顯著優點是節省記憶體,提高運算速度。主因子數的確定採用逐一剔出互動驗證法,涉及的所有算法均在Matlab6.5中編程實現。使用預處理方法後,玉米中蛋白質,澱粉的近紅外光譜法建模效果相對於原譜的建模效果有較大改善,說明了經過預處理後,光譜存在的基線漂移和散射被減弱或消除了。在蛋白質的測定中,以去趨勢法的預處理方法的結果最好,在澱粉的測定中,去趨勢法和1階導數法的結果最好,且結果很接近。