數據修正技術,分散式光纖溫度感測系統結構及硬體平台,無人機試飛數據修正,無人機試飛數據修正,雲數據修正,深部採空區雷射探測,噪聲點過濾,數據修正的差異性,新型差異性集成網路的構造算法,基於目標數據修正的差異性神經網路,數據修正與插值法,插值法在數據修正中的套用,
數據修正技術
對於整條電纜線路以及所敷設環境溫度的線上監測,當前比較常用的是分散式光纖測溫技術,但由於電纜線路分布面廣、相距較遠,使該技術具有分散式光纖節點部署不均衡、採集頻率高和感知數據強關聯等特點,且由於整個系統損耗和噪聲的影響,造成所測電力電纜數據的真實性受損,從而形成漏報、誤報,致使其套用受限。為了使光纖感測監測技術更好地套用於實際,對其數據質量和數據管理技術提出了更高的要求,以便有效地提高電力電纜感知數據的質量,並進行有效的計算和準確報警。
傳統上提高
感測器節點採集數據質量最簡單的方法就是進行多次採樣,然後取採樣數據的平均值作為最終的採樣數據,但該方法需要很多存儲空間並占用了大量採樣時間。提出了一種基於最小一乘估計的
多感測器信息融合方法,但這需要更多的感測器,增加了系統的成本。利用 Kalman濾波對同一檢測目標的多個採集節點採集到的信息進行綜合對比和分析,以達到提高數據精度和可信度的目的,但這種算法只在網路入侵檢測和傳統數據挖掘中套用較多。前人研究的基礎上,採用線性自回歸方法,給出感測器數據流的預測模型,並提出一種
預測模型自動調整策略,以便在預測誤差超過預先設定的閾值時,自動調整預測模型,從而提高分散式光纖感測器信息的質量,並在數據出現異常情況時能夠進行有效修正,在一定程度上降低了光纖檢測系統的缺陷發生率,避免了大量的現場工作。
分散式光纖溫度感測系統結構及硬體平台
分散式光纖溫度感測系統結構其原理是:驅動電路發出驅動信號,對大功率雷射器進行調製,同時發出一路同步脈衝對 A/D(模/數)採集卡進行控制。雷射器經調製後發出的脈衝光,經CWDM(
粗波分復用)後,注入參考光纖,參考光纖的末端連線感測光纖。脈衝光在光纖中傳輸時,會發生瑞利散射,散射方向與光波前進方向相反的背向散射光含有斯托克斯光和反斯托克斯光,經CWDM分路後,被APD(
雪崩光電二極體)接收,進行光/電轉換,轉換後的電信號經濾波和信號放大電路後,被A/D採集卡採集,並輸入到計算機中進行處理。
其硬體平台主要包括子系統、客戶端和集成軟體平台三部分。其中,各子系統負責各自監測參數的採集、分析處理和存儲,並通過
TCP/IP(傳輸控制協定/網際協定)將數據上傳到集成軟體平台上。各子系統上傳的數據經集成軟體平台的接口模組接收並統一轉換成標準格式存儲到資料庫中,供集成軟體平台上層分析和套用。各客戶端通過網路來查看集成軟體平台上的數據,並提出相應的業務功能請求。集成軟體平台採用網路化架構實現數據的採集、轉換、處理、分析和展示,並通過TCP/IP與電力部門其他軟體系統進行數據交換。
無人機試飛數據修正
試飛數據不可避地免含有隨機誤差,這些誤差會導致研究分析有一定的偏差, 甚至得到錯誤結果。因此無人機試飛數據要經過一系列修正,以消除測量過程中引入的各種隨機誤差, 得到真實的飛行運動參數,這一過程即為試飛數據預處理,也是後續研究工作的基礎。試飛數據預處理主要包括:野值識別、剔除與補正;濾除噪聲和曲線平滑。
噪聲濾除是數據預處理中重要的環節, 試飛數據中的干擾信號來自多樣的非平穩、非線性慢時變信號,它們混疊在真實數據中,由於無法得到這些非平穩信號準確的先驗統計特性,線上擬合其數學模型對其進行參數辨識也是比較困難的。受到干擾後的輸出數據有很多跳變,傳統的降噪方法是將試驗數據通過一個濾波器,濾除高頻噪聲成分, 然而對於非平穩、含寬頻噪聲信號,採用傳統方法有明顯的不足和局限。局域波分解EMD(empiricalmodedecomposition)法使用自適應的廣義基函式將信號分解為有限個基本模式分量之和,很好地突出了信號的局部特徵,非常適用於非線性、非平穩的數據序列處理,信號降噪處理結果優於其他信號處理方法。所以在試飛數據預處理濾除噪聲中,引入局域波分解的方法對試飛數據在時頻域上進行分解,通過重構有用信號實現信噪分離。對於試飛數據, 經過野值識別、剔除與補正, 濾除噪聲和曲線平滑處理,在某型無人機試飛數據中套用,修正後的試飛數據滿足後續分析要求。
無人機試飛數據修正
試飛數據中含有一些野值(粗大誤差), 如果對這試飛數據中含有一些野值(粗大誤差), 如果對這
些數據不進行處理, 直接用於後續的性能分析及計算,所得結果將會存在很大偏差,所以將這些野值去除並保留原先真實數據是試飛數據預處理應完成的首要任務。
1. 野值識別、剔除與補正
正交多項式可以擬合連續函式, 用一個低階多項式將試驗數據擬合,如果有判別點不符合多項式,則可以判斷為野值。為避免後面野值逆傳影響前面的正常,採用前向差分方法進行野值判斷,它用到的數據是判別點以前的數據,而這些數據是已經處理的數據,可以認為這些數據是可靠的。這裡σ=3,實際中連續野值點很少超過4個, 所以m=3。當滿足上式的點超過3個, 那么認為fk, fk+1, …, fk+3都是正常值,如果判斷為野值點則對該點進行標記。
野值識別和剔除後,需要對剔除的野值點進行補正,才能保證試驗數據的完整性,野值的補正即為數據插值,主要的差值方法有Lagrange插值、Newton插值,分段多項式插值及樣條插值。從工程的角度考慮, 由於Lagrange插值缺少遞推關係, 增加節點要重新計算,高次差值無法利用低次結果,這裡採用Newton插值,假設fk, fk+1, …, fk+n, (n
2.濾除噪聲
試飛數據中夾雜著各種隨機噪聲,它們混疊在真實數據中, 所以要對數據進行降噪處理, EMD分解後的分解分量與原數據的相關係數如表1所示。
從表1中可以看出分量1、2是偽分量,可以直接剔除,分量4、5、6、7、8和趨勢項是原數據主要成分。分量3、9、10、11是疑似噪聲,隨後計算的自相關證明分量3是噪聲,其餘不是噪聲。
雲數據修正
深部隱患採空區是礦山安全生產重點監控的危險源,三維雷射掃描技術是採空區邊界信息獲取的重要手段,可以對空間三維物體特徵點快,具有速掃描,精確獲取目標的空間三維信息探測過程自動化程度高、數據精度高等技術特點,便於結構複雜、非接觸式場景的三維可視化建模.但是雷射掃描收集的點雲數據格式多樣,數據點分布不均勻,可能存在異常點,難以直接在原始數據點的基礎上進行曲面重構和三維建模內外許多學者對此進行了大量的研究 Cici 等提出先對點雲數據進行 Delaunay 三角剖分然後進行處理的方法; 董明曉等提出了利用複合二次插值函式處理法; 還有對局部或邊緣點雲數據進行最佳化的方法,. 這些研究中探測的對象都是在地面以上,邊界形狀規則,探測環境相對較好,所獲數據中噪聲點判斷特徵較明顯.
國內許多礦山都已經進入深部開採,生產條件複雜,地下工程處於“三高一擾動”的特殊力學環境,岩爆、流變和底板突水等非線性動力學災害現象頻繁,針對深部複雜環境下採空區雷射探測效果影響因素及異常點雲數據修正的研究較少.本文統計大量空區探測數曲線的拓撲關係,分析壞點和噪聲點產生的影響因素,提出噪聲點的判斷依據,研究採空區雷射掃描點雲數據壞點插值和噪聲點過濾算法.
深部採空區雷射探測
1.雷射軌跡線規律
採空區雷射掃描過程結束後,獲取的正常點雲數據格式簡單、邏輯清楚、圈( 軌跡線) 間有明顯分界、圈內數據按先後順序排列.其數據形式是按雷射掃描線組織的“點雲”數據,幾何拓撲性質具有以下特點:掃描頭旋轉一圈形成1 條軌跡線,包含若干個有前後順序的點; 每條軌跡線都反映了三維物體的對應邊界點空間信息,是1 條光滑的、相鄰點起伏和距離變化不大的曲線,滿足C連續性; 圈與圈( 軌跡線) 相互獨立.不符合此規律的為異常點,分兩大類: 壞點和噪聲點.
2.壞點及環境影響因素
統計大量深部採空區探測數據,分析在高溫、高濕和高粉塵濃度的環境下壞點出現頻率.部分數據見表1.
表1 環境影響因素統計
在工程中統計發現:當溫度高於34 ,濕度大於85% ,掃描鏡頭上形成水珠、水霧,岩塵濃度大於2 mg /m,空區底部有積水,吸收雷射能量或者反射雷射線時,壞點數目會顯著增加.如果有壞點產生,設備自動收集並報告.
噪聲點過濾
軌跡線上噪聲點相比前後兩點,有以下明顯幾何特徵: 與前後兩點的距離大於圈內正常點間距; 與前後兩點連線形成的夾角比圈內正常點間連線夾角小; 空間位置與其他軌跡線衝突等.基於點雲掃描軌跡曲線上點與點之間的拓撲關係和二階幾何連續性的要求,本文提出噪聲點複合判據———弦夾角和弦高比,數據點符合該判據時,被確定為噪聲點,將被刪除.
1.弦夾角
弦夾角過濾算法的基本思維:在掃描圈3 個相鄰點點Pi及前後兩點Pi-1和Pi+ 1,邊Pi-1Pi與邊PiPi+ 1連成的2 條邊形成的夾角中尋找小於閾值(ε1)的夾角,閾值根據空區的具體形態和工程精度要求確定.夾角θ 的餘弦值可以通過餘弦定理結合向量的點積( 數量積) 求出.過程如下: 三角形(a,b,c),設向量A = a -c,向量B = b -c,兩向量的夾角為θ.
2.過濾算法
1)讀取XYZ 數據檔案,將點的空間信息存入動態數組中,點的空間信息包含空區邊界點的x,y,z 坐標值、圈數和點在圈的索引值;
2)定義1 條初始邊(一般選第一個圈的第一、二點的連線為初始邊) ;
3)假設存在邊e1為第i 圈j 點和第i 圈j -1 點連線,假設存在邊e2為第i 圈j 點和第i 圈j + 1 點連線,e1和e2形成的夾角為θ1;
4)按照弦夾角的原則,通過計算和比較夾角的餘弦值,餘弦值較小則說明夾角較大.如果 ε1>θ1時,確定第i圈j點符合弦夾角判據;
5)計算第i 圈j 點到第i 圈j -1 點和j + 1 點連線的距離dj,以及| dj/dj-1| ;
6)如果| dj/dj-1| ≥ε2,確定第i 圈j 點符合弦高比判據;
7)在點集中刪除j 點;
8)完成每個圈上的每個點的比較;
9)將過濾後形成的新點雲數據集存入動態數組中.
數據修正的差異性
機器學習關注的根本問題之一是如何提高學習系統的泛化性能.集成學習為此問題提供了一條有效的解決途徑,受到了國際機器學習界的廣泛重視,並被認為是當前機器學習4 大研究方向之首.在此背景下,Hansen 和Salamon 提出了神經網路集成方法,通過簡單地訓練多個神經網路並將其結果進行合成,可以顯著地提高神經網路系統的泛化性能.該方法易於使用且效果明顯,是一種非常有效的工程化神經計算方法.神經網路集成的研究始於Hansen 和Salamon在1990 年的工作,相關研究主要集中在如何生成集成中的個體網路.根據Krogh 等人的分析,成員網路的平均精度越高、成員網路之間差異性越大(即誤差相關程度越低),越有利於神經網路集成泛化誤差的降低,因此生成滿足個體精度要求和差異性要求的成員網路是提高神經網路集成泛化性能的前提基礎.綜合以往國內外的研究成果,個體網路生成大致可以分為5 種方式:
(1) 樣本擾動法.樣本擾動方法期望通過樣本的隨機性來獲得差異性,在該方式下,最重要的技術是Boosting和Bagging算法.
(2) 基於輸入特徵選擇的方法.通過選擇不同的特徵子集來提高個體網路的差異性和降低示例空間的誤差相關性,即基於特徵選擇的神經網路集成技術(集成特徵選擇)也是一種很有效的個體網路生成技術 .為實現多源擾動、進一步提高個體網路的差異性,近年來,一些學者將樣本擾動的Boosting 和Bagging 方法和對輸入特徵屬性擾動的特徵選擇技術進行結合.
(3) 基於選擇性策略的神經網路集成方法.針對傳統Boosting 和Bagging 算法由於隨機性生成的個體網路規模大、冗餘多的問題,Zhou根據分析和實驗提出,部分成員網路的集成反而可能超過所有成員網路集成的性能,並以此為依據提出了選擇性集成的思想.
(4) 基於進化算法的個體網路生成方法.近年來,Wu 利用
粒子群最佳化算法的全局搜尋能力,同時進化神經網路的結構和初始連線權,最後將訓練結果進行平均集成,建立短期氣候預測模型.Liu和Kim 通過適應度共享(fittness sharing)使遺傳算法在進化中形成側重於不同解空間的差異性種群,最後由聚類或其它選擇性策略實現神經網路集成.Pedrajas提出了一種基於協同進化方法的神經網路,進化過程中不僅考慮個體的性能改善,同時根據個體網路性能及和其它網路的協同性為每一個個體網路定義不同的目標函式,實現進化過程中個體網路的協同訓練.
(5) 基於差異性評價的個體網路生成方法.為克服前面4 類神經網路集成方法中差異性個體網路生成的隨機性和增強差異性學習的目的性,近年來研究人員積極探索了新的基於差異性評價的差異性個體網路學習方法.Liu通過負相關性來評價個體網路的差異性,並通過在誤差函式中加入反映負相關度的罰函式項,使個體網路在訓練過程中形成差異性.Liu還進一步探討了基於負相關的神經網路集成的進化學習,通過進化學習可以自動確定集成的規模和實現個體網路學習的互動.張東波 通過對集成誤差公式的理論分析,提出了一種能主動引導個體網路進行差異性學習的集成網路學習算法(ADL).該方法通過對集成誤差的分解,使個體網路的訓練準則函式中包含個體網路誤差相關度的因素,並通過協同訓練,引導個體網路進行差異性學習.
主動差異性學習方法通過對集成誤差公式的分解,使個體網路的訓練準則函式中包含個體網路誤差相關度的因素,促進個體網路間的協同訓練,這將有助於個體網路偏向於不同輸出子空間的學習.但是,主動差異性方法集成中成員網路均採用BP (backpropagation)學習算法,它需要成員網路間的較高的數據通信成本,不利於並行分散式快速實現.此外,在訓練過程中成員網路必須綜合誤差相關度函式重新修正其誤差準則函式,這也增加了集成多種異構神經網路的困難.上述缺陷一定程度上限制了差異性神經網路集成方法在實際問題中的廣泛套用.
為克服這些局限性,本文提出了一種新型差異性神經網路集成方法,該方法利用修正目標數據(object-corrected data,O-C data)作為新的訓練集,訓練過程中通過修正目標數據引導個體網路間的差異性學習,簡稱OCD 方法.該方法不同於引導個體網路進行差異性學習的ADL 集成方法,無需實現困難的成員網路誤差函式的修正.新型差異性學習方法不僅實現簡便,而且不局限於成員網路是否採用 BP 學習算法,因此該方法可用於異構網路的集成.另一個優點是OCD 方法明顯降低了網路集成訓練過程的通信成本.
新型差異性集成網路的構造算法
以3個成員網路組成的集成網路為例,集成網路採用OCD 方法在分散式計算環境中的具體實現.集成中成員網路各自獨立運行,依靠控制中心互相交流.控制中心集中所有信息,它的作用有3 點:
(1) 產生各網路的修正數據;
(2) 分發這些數據到各成員網路;
(3) 集成所有成員網路的輸出結果.
修正目標數據的更新間隔定義為gupdate,每個網路被允許訓練的總次數定義為gtot.所有成員網路完成gupdate次訓練後,修正目標數據同時進行更新.除此之外,也可能是當任意一個成員網路完成gupdate次訓練後,修正目標數據進行更新.本文中實驗採用第1 種修正相關數據方法.實現的具體過程為:Step 1 初始化M個成員網路的權係數.針對輸入訓練數據集D =fX;dg,各成員網路開始訓練,訓練次數達到gupdate,輸出網路各自的訓練結果.Step 2 所有成員網路的輸出結果達到控制中心.以第i 個成員網路為例,分析該過程,其輸出結果為fi:
(1)更新集成網路的輸出結果
f(採用式(10)
簡單平均法集成結果);
(2)根據式(13) 得到目標修正數據ci;
(3)傳遞新的訓練集Di=fX;cig 到第i 個成員網路,然後輸入該數據網路開始訓練gupdate次;
(4)輸出網路的結果fi到控制中心.Step 3 如果成員網路的總訓練次數達到gtot,停止訓練,輸出成員網路結構;否則,返回Step 2
基於目標數據修正的差異性神經網路
將收集到的496 組已知故障類別的變壓器故障樣本分為2 部分,其中訓練樣本206 組,測試樣本290組.該故障樣本的故障類別可分為中低溫過熱、高溫過熱、低能放電、局部放電及正常五種類型.
實驗採用5 種特徵氣體(H2、CH4、C2H6、C2H4、C2H2)含量作為網路輸入變數,集成網路輸入層神經元節點數為5.為減少各種氣體量值間差異造成的影響,所有樣本數據都進行了相對歸一化處理 .故障樣本共分為5 種故障類型,因此,集成中成員網路的輸出節點數目為5.集成網路的輸出由各成員網路的輸出簡單平均得到,相關實驗結果是20 次運行的統計結果.
為體現本文方法的特點,實驗選用了3 種不同類型和學習原理的神經網路進行實驗測試.多層感知器網路MLP(multi-layer perception)是一種適合於分類問題的經典網路,本文MLP 採用的是3 層(單隱層)結構,輸入層和隱含層之間只負責數據傳遞,權值不訓練,而隱含層和輸出層之間的權值採用的是基於MSE(mean squared error)感知準則函式的梯度下降算法.RBF(radial basis function)網路 作為一種基於局部逼近的神經網路,其隱含層每一個神經元都可以代表某一類原型樣本,具有結構簡單、可解釋性好、收斂速度快的特點.RBF網路本文採用2 階段學習方法,隱含層有5 個神經元(代表5 類原型樣本),首先採用期望最大化算法調整基函式中心(5 個高斯函式的中心),隨後採用
最小二乘法調整輸出層連線權值;而BP 網路是採用BP 算法的3 層結構的前饋神經網路,隱含層和輸出層採用的都是sigmod 函式.為便於比較,MLP網路和BP 網路的隱含層均採用8 個神經元.實驗中集成網路的成員網路有4 種組成方式:
(1)由3 個MLP 網路組成;
(2)由3 個RBF 網路組成;
(3)由3 個BP 網路組成;
(4)由1 個MLP 網路、1 個RBF 網路和1 個BP網路組成.
據觀察,更新間隔gupdate一般在20~50間取值性能較好,本文實驗OCD 方法中參數的設定:gupdate25,l= 0:2,最大訓練次數gtot= 2 000.MLP 和BP 網路的待訓練權值參數W在初始化時都設定為接近於0 的隨機變數.根據文[19] 可知,主動差異學習集成方法中,個體網路並不需要訓練到過高的精度,集成性能的提升主要依賴個體網路的差異性.同時經過試驗檢驗(通過單獨選取一部分樣本作為校驗集),最終在各類網路(RBF 網路除外)訓練時,選取2 000 次的訓練疊代步數,此時不會出現過學習問題.而RBF 網路由於收斂速度快,不需要過多的訓練疊代次數,實驗中採用200 次疊代步數.基於機率統計理論的貝葉斯分類方法和基於近鄰準則的最近鄰法被用在同樣的故障樣本上與本文OCD 方法進行了比較
數據修正與插值法
隨著社會的發展,各行各業、各個領域都會對自身的行為結果做出評估,譬如經濟分析和風險分析綜合評價、衛生評價、學生成績評價、公司年度考核、企業產品分等級等等.評估的整體結果一般分為優秀、良好、合格、不合格四個等級,從而為未來的發展做出規劃,或進行必要的調整.在這些評估行為中,我們一般是預先給出某個人、某件物或者某件事的數據結果,如分析師對國家或者地區的經濟狀況打分、檢查員給產品打分以及公司領導對員工進行考核等等,然後對數據結果做出整體的考評.
但是往往這些數據考評的結果並不是我們所期望的,可能出現不合格的太多,或者優秀的對某公司員工考核原始太多. 為了使評估的結果達到某種規定的水平,考慮用插值法數據進行適當的調整. 這些研究將不僅為各行各業的評估提供了一個新的方法,而且修正前和修正後數據的比較也為我們提供了未來調整或改進的方向.
插值法在數據修正中的套用
一般地,數據結果評定有 100 分制和等級制兩種記載方式,等級制分為優秀、良好、合格、不合格四個等級,它和 100 分制的對應關係見表 1.
假設我們的評估目標為:優秀的比率控制在15% 左右,良好的比率控制在40% 左右,合格的比率控制在40% 左右,不合格的比率控制在5% 左右.本節將用線性插值、
拉格朗日插值、牛頓插值方法對某公司員工年度考核分進行修正,目的就是要將結果調整到上述規定的目標範圍內.原始數據見表2.根據原始數據表2 可知:原始數據達到優秀的人數為0 人,良好的為6 人,合格的為8 人,不合格的為15 人.而按該公司考核的目標,應有4 人達到優秀,12 人達到良好,12 人達到合格,不合格應控制為1 人.可見,原始考核分達到優秀的人數比預期的目標少4 人,而不合格的人數則多了14 人,與我們規定的目標相差甚遠.
線性插值法是一種最簡單的插值法,我們的方法是:第一步: 排序: 對原始數據進行統計排序,排序從高向低進行;第二步:分段:把數據分為四段,排在最前面15% 為優秀段,緊接著的40% 為良好段,其次的40% 為合格段,最後的5% 為不合格段;第三步:取上、下限數據(用X 表示原始數據) :找出各段數據的最高分及最低分,即為各段的上限分值和下限分值(其中約定優秀段的最高分為100 分,不合格的最低分為0 分),分別用符號X優秀上、X優秀下、X良好上、X良好下、X合格上、X合格下、X不合格上、X不合格下表示,其中X優秀上= 100,X不合格下= 0;第四步:確定變換目標(用Y 表示目標分值) :把各段的上、下分限換成目標段的上、下分限,即:X優秀上 Y優秀上= 100、X優秀下 Y優秀下= 85 ;X良好上 Y良好上= 84、X良好下 Y良好下= 70 ;X合格上 Y合格上= 69、X合格下 Y合格下= 60 ;Y不合格上= 59、X不合格下 Y不合格下= 0 ;第五步:數據修正:取各段中的數據X ,按式(1)進行線性變換,即可得到相應修正後的數據Y.
下面利用前面所介紹的方法來對原始數據表2 進行修正.按上述介紹的方法,先對原始數據進行排序,排序方式由高到低,最前面的4 個為優秀段,其次的12 個為良好段,緊接著的12 個為合格段,最後面的1 個為不合格段.第4 位分數78 便是優秀段的下限原始分值,第5 位的分數77 便是良好段的上限原始分值,第16 位分數56 便是良好段的下限原始分值,第17 位的分數54 便是合格段的上限原始分值,第28 位的分數25 便是合格段的下限原始分值,第29 位的分數23 便是不合格段的上限原始分值.規定:優秀段的上限原始分值為100,不合格的下限原始分值為0.各段的原始上、下限數據,目標上、下限數據以及各段的變換公式.修正以後 有 4人達到優秀,12 人達到良好,12 人合格,1 人不合格,完全達到我們規定的目標.