大規模高分辨質譜數據挖掘新方法研究

大規模高分辨質譜數據挖掘新方法研究

《大規模高分辨質譜數據挖掘新方法研究》是依託中南大學,由張志敏擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:大規模高分辨質譜數據挖掘新方法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:張志敏
  • 依託單位:中南大學
項目摘要,結題摘要,

項目摘要

高分辨質譜在結構鑑定中起著非常重要的作用,但是從大規模的氣質或液質數據中通過預處理和模式識別挖掘出有判別能力的標記物,然後利用高分辨質譜對其鑑定仍是複雜體系分析的關鍵和難點之一。目前主要採用預處理方法與模式識別,鑑定則依賴於庫檢索。目前預處理方法耗時且主觀性大以及譜庫覆蓋範圍有限,因此需要新的預處理、模式識別與鑑定等方法。本項目在高性能計算平台支撐下,實現高分辨質譜自動基線校正、峰檢測、多元分辨和校準等方法,可快速從聯用數據中挖掘用於模式識別的二維矩陣;採用隨機森林和稀疏線性判別分析等方法識別出標記物;對無法用質譜庫進行鑑定的標記物,通過高分辨質譜精確質量、質譜校準、同位素豐度、PubChem資料庫、保留指數以及理論裂解規律等方法進行定性分析。項目成功實施將為複雜體系高分辯質譜數據提供更好分析與挖掘方法,對目前幾個研究熱點,如代謝組學、食品安全、天然藥物活性成分等領域有很強的現實意義。

結題摘要

高分辨質譜在複雜體系分析中起著非常重要的作用,但是從大規模的高分辨質譜數據中通過預處理和模式識別挖掘出有判別能力的標記物,然後利用高分辨質譜對其鑑定仍是複雜體系分析的關鍵和難點之一,大規模高分辨質譜數據挖掘仍非常具有挑戰性。因此需要開發新型化學計量學算法準確高效地從大規模原始聯用質譜數據中挖掘出有意義的信息。本項目首先搭建可存儲及分析太位元組(Terabyte)數據的硬體平台,包括30TB存儲空間的網路存儲伺服器及12TFLOPS單精度浮點計算能力的多路GPU計算節點,並針對聯用質譜數據中的純離子色譜峰提取、基線校正、峰檢測、峰校準以及高分辨質譜定性等問題進行了系統性的研究或探討,提出了K-均值純離子色譜提取方法(K-means clustering Pure Ion Chromatogram, KPIC)、自動雙邊指數基線校正算法(Automatic Two-side Exponential Baseline correction algorithm,ATEB)、小波空間多尺度峰值檢測(Multiscale Peak Detection, MSPD)、遞歸小波空間峰檢測算法(Recursive Wavelet Peak Detection,RWPD)、移動視窗快速傅立葉交叉相關(Moving Window Fast Fourier Transfrom cross-correlation, MWFFT)、提出質譜輔助信號分辨技術(MS-Assisted Resolution of Signals,MARS)以及新型並行分子式生成器(Parallel Formula Generator, PFG)。所提出的化學計量學方法成功用於化工園區的揮發性有機化合物(Volatile Organic Compounds, VOCs)線上源解析以及男性不育代謝組學診斷研究。

相關詞條

熱門詞條

聯絡我們