《複雜數據中的變點、異常點檢測及線上監控》是依託南開大學,由王兆軍擔任項目負責人的面上項目。
基本介紹
- 中文名:複雜數據中的變點、異常點檢測及線上監控
- 項目類別:面上項目
- 項目負責人:王兆軍
- 依託單位:南開大學
中文摘要,結題摘要,
中文摘要
隨著現代化的數據收集與存儲手段的極大提高,現代統計數據,不論在形式上還是在結構上均比傳統的數據更加豐富,也更複雜。這明顯的反應在統計質量控制領域,簡單的、低維的質量指標觀測被高維的、函式型的數據所取代。本項目的研究目標是將新的統計方法和問題相結合,提出新的理論方法來更有效地處理複雜數據的過程監控和診斷。研究內容將集中在如下幾方面:(1)高維數據、函式型數據的穩健統計檢驗以及其在SPC領域的套用;(2)複雜數據中(單)多變點的穩健探查方法及其理論;(3)高維數據中異常點篩選理論和方法;(4)複雜數據的統一線上監控與診斷架構。我們將對上述問題進行全面的理論分析,對相關的統計問題提出實際可行且有效的統計方法和理論解釋。我們預期本項目將得到一些國際高水平的研究成果。
結題摘要
背景及科學意義 隨著現代化的數據收集與存儲手段的極大提高,現代統計數據,不論在形式上還是在結構上均比傳統的數據更加豐富,也更複雜。這明顯的反應在統計質量控制領域,簡單的、低維的質量指標觀測被高維的、函式型的數據所取代。本項目的研究目標是將新的統計方法和問題相結合,提出新的理論方法來更有效地處理複雜數據的過程監控和診斷。 主要研究內容 (1)高維數據、函式型數據的穩健統計檢驗以及其在SPC領域的套用; (2)複雜數據中(單)多變點的穩健探查方法及其理論; (3)高維數據中異常點篩選理論和方法; (4)複雜數據的統一線上監控與診斷架構。 重要結果 (1)當維數比樣本量高時,提出了一種複合T2檢驗;研究了曲線比較問題,但假設是曲線條數趨於無窮而每條曲線的觀測點卻有限的情形;考慮了在多條數據流下,在數據流存在一定相關性下,大規模模型檢查的問題。 (2)研究了多項分布機率在未知時刻發生未知變化的變點檢測問題;採用了Anderson-Darling擬合優度檢驗或Cramer-von Mises檢驗,並結合EWMA構造控制圖用於同時監控過程的均值和方差。 (3)研究了高維非參數模型下的異常點檢驗問題,包括了普通的回歸模型為特殊情況,但難度卻大大增加了;研究了高維非參數模型下的變數篩選問題,我們感興趣的是如果傳統方法套用在數據受了異常點污染下效果的變化;提出了高維多個異常點檢驗的方法。 (4)在大數據框架下,研究了參數回歸模型的擬合檢驗;提出了一種基於似然比檢驗的二階段多項式曲線控制圖;在廣義似然比的框架下,我們構造了EWMA控制圖。 關鍵數據 在本項目執行期間(2014-2017年),在本項目的資助下,本項目組成員共正式發表論文31篇(另接收待發表論文9篇),其中39篇為SCI雜誌,1篇為國核心心雜誌。SCI雜誌中包括統計方面的國際頂尖雜誌the Annals of Statistics上2篇、Journal of the American Statistical Association上1篇、工業統計方面的國際頂尖雜誌Technometrics 上5篇,質量科學方面的頂尖雜誌 Journal of Quality Technology上 2篇。完成博士論文9篇,碩士論文12篇,專業碩士論文16篇。