海量蛋白質數據的複雜特徵建模及高效學習算法

海量蛋白質數據的複雜特徵建模及高效學習算法

《海量蛋白質數據的複雜特徵建模及高效學習算法》是依託上海交通大學,由沈紅斌擔任項目負責人的重大研究計畫。

基本介紹

  • 中文名:海量蛋白質數據的複雜特徵建模及高效學習算法
  • 項目類別:重大研究計畫
  • 項目負責人:沈紅斌
  • 依託單位:上海交通大學
項目摘要,結題摘要,

項目摘要

針對當前生物科學技術發展對智慧型學習理論的需要,研究蛋白質組學數據之套用背景下的複雜生物特徵建模和機器學習新理論,重點解決現有研究中所凸顯的簡單移植成熟算法解決生物問題所面臨的挑戰與所遇到的瓶頸問題。根據蛋白質數據的特點,在評估現有機器學習模型的基礎上,提出適合海量複雜蛋白質數據的特徵提取和維數約簡新技術,機器學習新方法,並與現有理論予以有效集成,使之能夠更好地處理多模態、動態、分層、關聯、海量、時變、高維、高冗餘和高噪聲的蛋白質數據。新的理論和方法將著眼於精確性、效率性、理解性、動態性、非線性性和易用性等關鍵問題,更高效地提取、表達、融合和預測生物領域知識,加速蛋白質序列-結構-功能映射關係的解密。本項目還將利用3T3-L1脂肪幹細胞分化模型,以細胞培養收集的有限分泌蛋白質為基礎,通過高效預測分析算法進行脂肪細胞分泌全蛋白質組學研究,揭示他們和肥胖代謝疾病的相關關係,提高健康水平。

結題摘要

本項目旨在開展面向海量蛋白質分子數據的生物信息學研究,圍繞蛋白質分子數據的複雜特徵,建立數據驅動的有效計算模型,實現在海量、複雜背景下的可計算方法,以指導相關生物實驗的開展。項目主要研究內容是蛋白質結構和功能的計算預測,在蛋白質相似性度量、高鑑別特徵的提取和融合、樣本不均衡和小樣本學習問題、新多目標最佳化方法、蛋白質生物圖像理解和與生物實驗結合等方面做了深入的研究工作,獲得了系統性的理論研究成果,形成了蛋白質序列與圖像分析的先進算法,揭示了多視角信息融合對解決生物系統複雜性的重要性,指明了生物圖像理解在蛋白質生物信息學中的新趨勢和重要套用。項目成果一方面通過建立精度高、速度快、易使用的理論算法和線上平台,在加速生命科學和臨床生物醫學研究進程方面具有重要推動作用;另一方面,在深化信息科學在解決生物複雜問題的可計算建模方面也有重要價值。 通過本項目的研究,項目組發表了SCI期刊論文28篇,包括Bioinformatics 5篇,IEEE 期刊長文3篇,SCI影響因子之和87以上,單篇大於3.0的論文17篇。發表論文中被遴選為國際期刊封面故事論文1篇,2篇論文曾被遴選為ESI高引用論文。所提出的算法在國際蛋白質結構預測競賽CASP11中被評測為 Top 3 的RR相互作用預測算法,證明了成果的國際競爭力。在項目所構建的先進理論模型基礎上,建立了11個線上計算生物信息學平台,實現了構架理論模型和生物實驗的橋樑。項目培養了13名研究生,其中2人已獲得上海市優秀研究生學位論文。

相關詞條

熱門詞條

聯絡我們