代謝組學數據的多層次融合和模型評價方法研究

項目摘要

隨著儀器分析技術的飛速發展，高通量代謝組學數據的獲得已變得不再困難。隨之而來的是如何解決這些海量實際數據帶來的諸多現實問題。高通量數據，一個顯著的特點就是變數數遠大於樣本的數量。這一特點給數據融合和模型評價帶來了一系列的困難。本課題擬在前期的代謝組學研究工作基礎上，根據不同類型、不同層次的代謝組學數據融合要求，開發一系列化學計量學數據融合新算法和新策略。揭示不同數據集的數據特徵以及數據集之間變數的內在變化規律，建立穩健的數據融合模型，為多中心大範圍的代謝組學研究提供技術支撐。另一方面，針對模型評價這個化學計量學、化學信息學和生物信息學都十分關注的基礎性問題，從模型參數的統計分布角度出發，尋找與評價模型的預測能力相關的關鍵因素，建立模型評價新方法和新指標。所建立的方法將套用於疾病的代謝組學研究中，用於建立有良好預測能力的疾病分類模型，為疾病的臨床診斷和預後預測提供新的手段。

結題摘要

隨著分析技術的快速發展，代謝組學高通量數據的獲得已不再困難。然而，如何保障數據的高質量，如何提高數據處理的有效性和準確性成為擺在我們面前的新問題。本研究基於代謝組學數據維度高、干擾變數多、類不平衡等特點，針對代謝組學數據融合和模型評價所涉及的諸多問題開展研究工作。從測定混合標準品、混合血漿樣本、患者實際血漿樣本三個層次對不同儀器平台和不同批次代謝組學數據的變化和差異進行分析和評價。結果表明，不同類型代謝物的性質差異大，在生物基質中的穩定性不盡相同。非目標的代謝組學研究只能完成代謝組的半定量分析。目標代謝物的精確測量需根據其性質進行有針對性地方法摸索及方法學考察。在算法方面，本研究在剖析代謝組學數據結構的基礎上，圍繞變數選擇的數據融合問題，提出了基於稀疏正則化的穩健的變數選擇方法，相關性輔助最近縮小質心分類算法等。針對模型評價的問題，基於模型集群分析的思路，從噪聲變數、弱相關變數和冗餘變數、特徵變數等的統計分布出發，提出了將互動驗證的決定係數與模型穩定性指標相結合對模型進行評價的研究思路，及準確率-召回率準則用於分類模型評價的方法。我們將所建立的方法套用於2型糖尿病、顱腦損傷引發認知障礙、冠心病、鼻咽癌等疾病的代謝組學研究中，不僅提高了疾病分類模型和潛在生物標誌物篩選的準確性和穩定性，針對這些疾病還有一些有趣的發現。顱腦損傷並發認知障礙的代謝通路研究發現，該疾病將引發五條重要的代謝通路的變化，亞油酸代謝、半乳糖代謝、花生四烯酸代謝、甘氨酸/絲氨酸/蘇氨酸代謝、苯基丙氨酸代謝。此外，我們跟蹤了新確診的118例2型糖尿病患者兩年的變化，發現其中有44例患者兩年後並發有動脈粥樣硬化，比例高達37.29%。結合臨床指標數據與代謝組學數據的分析表明，C20:0，C22:6n-3，HbAlC和WC這四個指標很可能與2型糖尿病並發動脈粥樣硬化密切相關。這些研究結果無疑將對疾病的發病機理研究，患者治療方案的最佳化提供有價值的信息。

代謝組學數據的多層次融合和模型評價方法研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條