系統生物學中組學數據分析的若干問題研究

系統生物學中組學數據分析的若干問題研究

《系統生物學中組學數據分析的若干問題研究》是依託中南大學,由許青松擔任項目負責人的面上項目。

基本介紹

  • 中文名:系統生物學中組學數據分析的若干問題研究
  • 項目類別:面上項目
  • 項目負責人:許青松
  • 依託單位:中南大學
項目摘要,結題摘要,

項目摘要

本課題研究將以湘雅醫學院衛生部腫瘤蛋白質組學重點實驗室提供數據和我們自己實驗獲得的高通量的血漿代謝組數據為基礎,輔助利用美國生物信息學中心的Pubchem資料庫,歐洲生物信息學中心的UniProt蛋白質資料庫和日本京都大學建立的KEGG代謝網路資料庫等, 針對目前系統生物學組學複雜數據的分析和處理新方法進行系統深入的研究,其中特別某些疾病代謝特異性生物標記物的篩選, 建立可靠具有代表性的健康人和病人的數學判別模型。發展基於可靠獨立篩選以及模式分布分析的重要變數篩選的學習方法;研究疾病的代謝組與蛋白組相互關係,整合、挖掘、統計分析不同組學的數據信息,尋找健康人蛋白組與代謝組之間的相關規律。本項目將完成組學的複雜數據分析、生物標記物的篩選和建模的系列方法,為組學研究者提供有效的數據分析手段,為臨床診斷提供新的途徑,促進現代統計學習方法在生命科學研究中的套用。

結題摘要

數據科學時代,由於數據的海量和高維複雜,經典統計分析和建模方法已經遠遠不能適應,迫切需要新的統計理論和方法來應付這個巨大挑戰。本項目針對目前系統生物學組學複雜數據的分析和處理的各個方面,根據數據的特點,(如蛋白質組、代謝組學和中藥植物組學數據等數據),進行系統深入的研究,提出相應的分析和建模系列方法,尋找隱藏在海量複雜數據中的各種模式和規律。具體在以下幾個方面獲得系列成果: 1. 對於高維數據的兩個最重要的方法主成分回歸和偏最小二乘回歸我們取得重要結果,在充分降維的前提下,證明兩種方法的估計參數都落線上性模型參數的中心子空間,從而證明了兩種方法是等價。 2. 提出了組學數據預處理的形態學方法,對於基於光譜儀以及色譜聯用儀器產生的數據的各種背景扣除效果好於現有的經典方法; 為有效分析和研究組學中蛋白質和多肽的序列、功能結構預報以及其表達和相互作用,我們連續開發了三個Python 和R語言的工具包,能以胺基酸序列為基礎,計算蛋白質和多肽的結構和物理化學特徵,並且能計算PseAAC 描述子,受到許多研究者的歡迎。 3.我們針對複雜組學數據提出系列統計學習方法,如基於子空間的Boosing方法,基於排序的流形和基於樹核的學習方法等, 對於複雜數據回歸問題、監督和半監督的分類問題等,改善了傳統學習算法,提高模型預測能力;對於重要標誌物(變數)的篩選,提出了多種的篩選方法, 針對多變數模型,能有效提取重要變數,提高模型精度和解釋性。 4. 將我們自己提出的方法用於若干實際問題,如II型糖尿病的代謝特異性生物標記物,我們基於動物(老鼠)代謝高效氣相-質譜指紋圖譜數據, 我們建立模型,成功的將健康和疾病組分開,同時通過重要變數排序方法,找到有實際意義的代謝物,取得了初步成果。

相關詞條

熱門詞條

聯絡我們