基於序列譜進化信息的蛋白質遠程同源性檢測方法研究

《基於序列譜進化信息的蛋白質遠程同源性檢測方法研究》是依託哈爾濱工業大學,由劉濱擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於序列譜進化信息的蛋白質遠程同源性檢測方法研究
  • 依託單位:哈爾濱工業大學
  • 項目類別:青年科學基金項目
  • 項目負責人:劉濱
項目摘要,結題摘要,

項目摘要

蛋白質遠程同源性檢測是研究蛋白質結構和功能的有效手段之一。由於遠程同源蛋白質序列相似性較低,目前的計算方法不能準確檢測蛋白質的遠程同源性。序列譜包含了多序列比對中的進化信息,提取和利用序列譜中的進化信息是提高預測精度的關鍵。本項目以提取和利用序列譜進化信息為切入點,通過結合生物學、數學、自然語言處理技術和機器學習算法來探索新的計算方法。研究內容包括:1、通過提取序列譜中的進化信息,生成基於序列譜的蛋白質表示形式;2、採用自然語言處理技術、序列譜比對算法和多核學習方法檢測蛋白質遠程同源性。尋找與自然語言中的詞等價的蛋白質組成成份和蛋白質序列的語法規則;3、結合生物學背景知識挖掘蛋白質家族的特徵;4、套用本項目提出的遠程同源性檢測方法,解決蛋白質摺疊識別和蛋白質相互作用位點預測問題。本項目的研究在理論上可以推動蛋白質序列、結構、功能之間的映射關係的研究,在套用上可以促進醫藥學和農業的發展。

結題摘要

項目背景 蛋白質是生命系統內最為重要的物質之一,它是生命活動的重要承擔者。蛋白質結構和功能的研究對生物醫學、人類生活和生成實踐等方面都具有重大的意義。因此,尋找有效的計算方法,使之能根據有限的已知結構和功能的蛋白質,對新測定的蛋白質序列進行注釋,已成為目前生物信息學中亟待解決的問題之一。 主要研究內容 項目組以序列譜進化信息為切入點,通過結合生物學、數學、自然語言處理技術和機器學習方法來研究蛋白質遠程同源性檢測的相關問題。研究內容包括:(1)提取序列譜進化信息,生成新的基於序列譜的蛋白質表示;(2)基於自然語言處理技術、序列譜比對算法和多核學習的蛋白質遠程同源性檢測研究;(3)挖掘蛋白質家族特徵和分析解釋其生物學含義;(4)套用提出的蛋白質遠程同源性檢測方法解決蛋白質摺疊和蛋白質位點預測任務。 重要結果及關鍵數據 經過3年的研究努力,項目組在序列譜進化信息提取方法和蛋白質遠程同源性檢測方法上都取得了重要的成果。在項目執行期間,共資助發表SCI論文30篇,其中1篇論文被中國科學技術信息研究所評選為 “2014年中國百篇最具影響國際學術論文”,其中1篇論文被中國科學技術信息研究所評選為 “2015年中國百篇最具影響國際學術論文”,16 篇論文入選Essential Science Indicators(ESI)高被引論文(被引頻次在本學科領域排名全球前1%),其中7 篇論文入選ESI 熱點論文(被引頻次在本學科領域排名全球前0.1%)。提出7個蛋白質遠程同源性檢測方法,在基準測試集上性能優於同類方法,並開發出多個預測系統,已被訪問多少次57823次。培養碩士、博士研究生5名。完成了計畫執行的目標。 科學意義 基於序列譜的蛋白質表示,不僅有助於蛋白質遠程同源性檢測,還將推動蛋白質結構和功能的研究。鑒於蛋白質序列與自然語言之間的相似性,項目組將自然語言處理技術套用於生物信息學研究領域,為該領域提供新方法、新理論。

熱門詞條

聯絡我們