生物特徵識別中高維數據的統計降維及算法研究

《生物特徵識別中高維數據的統計降維及算法研究》是王順芳為項目負責人,雲南大學為依託單位的地區科學基金項目。

基本介紹

  • 中文名:生物特徵識別中高維數據的統計降維及算法研究
  • 項目類別:地區科學基金項目
  • 項目負責人:王順芳
  • 依託單位:雲南大學
項目摘要,結題摘要,

項目摘要

在生物特徵識別中,生物數據的維數往往非常之高,例如龐大的基因表達數據和人臉圖像數據,這類數據的統計分析和降維是生物特徵識別的關鍵技術,也是當前高維數據研究的國際前沿課題,現有降維方法的一個難點是不能針對具體的實際問題確定尋找低維結構的準則。在我們前期工作基於基因信息提取的互動熵信息收益方法以及基於人臉識別的小樣本BOOTSTRAP PCA降維技術的基礎上,本項目擬系統研究生物特徵識別這一實際問題中高維數據降維的前沿統計方法和算法:帶異常干擾線性生物數據的穩健降維及算法;非線性生物數據的基於核估計的穩健降維及算法;模糊生物特徵數據的統計降維及算法;核模糊主成分分析和核模糊判別分析的降維及算法;以及生物特徵識別中,評價各種統計降維算法的性能的統計推斷方法。預期得到在生物特徵識別中可處理各種複雜高維數據的較系統的新算法,進一步提高降維算法的穩健性和識別率。

結題摘要

本項目系統研究了生物特徵識別這一實際問題中高維數據降維的前沿統計方法和算法,具體包括:(1)帶異常干擾線性生物數據的穩健降維及算法。使用協方差矩陣的多種穩健估計,例如最小協方差行列式估計(MCD)方法改進PCA、LDA數據降維方法;使用基於異常點度量的多種重構誤差方法;使用基於熵信息的高維小樣本數據處理方法以增強算法的穩健性。(2)非線性生物數據的基於核估計的穩健降維及算法。研究出穩健核估計下的KPCA及KDA算法、根據不同的非線性生物數據進行核函式的選擇和組合、針對噪聲圖像數據提出基於鏡像奇偶圖像特徵組合的改進KPCA方法、針對小樣本數據提出基於組合增加虛擬樣本的KPCA生物特徵識別方法、針對含冗餘的圖像數據提出基於改進偽特徵值選點的KPCA算法等。(3)模糊生物特徵數據的統計降維及算法。研究模糊隸屬度的基於多種距離的學習方法和高效迭帶算法。用模糊協方差矩陣代替傳統的協方差矩陣,研究高維數據中模糊協方差矩陣的特徵分解方法。使用Bootstrap,並使用偽逆、奇異值分解和QR分解以克服奇異問題,減少矩陣變換中的計算複雜度。(4)在上述(2)和(3)的研究基礎上,研究基於核變換的模糊非線性算法:核模糊主成分分析(KFPCA)和核模糊判別分析(KFDA)。(5)針對各種判別分類的統計降維算法,研究了評價其識別性能的有關參數的估計和檢驗方法。並套用這些估計的參數評價上述所討論的各種降維算法。 項目研究達到預期要求,得到在生物特徵識別中可處理各種複雜高維數據的較系統的新算法,進一步提高了降維算法的穩健性和識別率;在生物統計、統計計算、統計學習等方向正式發表標註基金的學術論文26篇,其中SCI收錄3篇、EI收錄17 篇、其他核心6篇,培養碩士研究生畢業並獲碩士學位14名。完成任務書要求的研究內容和指標。

相關詞條

熱門詞條

聯絡我們