《基於自然語言處理技術的蛋白質結構和功能預測》是依託復旦大學,由董啟文擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於自然語言處理技術的蛋白質結構和功能預測
- 依託單位:復旦大學
- 項目類別:青年科學基金項目
- 項目負責人:董啟文
項目摘要,結題摘要,
項目摘要
近年來大量的基因組和蛋白質組序列、結構和功能數據不斷增加,使得採用數據驅動的方法來解決蛋白質序列-結構-功能映射問題成為可能。生物序列和自然語言之間存在一定的相似性。大量語料庫的出現推動了計算語言學的發展,同理,大量的蛋白質序列-結構-功能數據的出現,使得計算的方法和信息技術得以套用於此領域中。本項目將採用計算語言學的工具包括統計語言模型、文本分類技術、機器學習算法以及更高層的語言處理方法來理解細胞中蛋白質的結構和功能。通過將自然語言處理的相關技術引入到生物信息學中,針對蛋白質結構和功能預測的相關問題採用新的計算手段,簡化蛋白質結構和功能預測的模型,提高蛋白質結構和功能預測的精度,進而推動蛋白質序列-結構-功能映射問題的發展。項目的研究在生物醫學、人類生活、生產實踐等方面都有著極為重要的意義。
結題摘要
項目採用自然語言處理的相關技術和方法解決蛋白質結構和功能預測的問題。通過將自然語言處理的相關技術引入到生物信息學中,針對蛋白質結構和功能預測的相關問題採用新的計算手段,簡化蛋白質結構和功能預測的模型,提高蛋白質結構和功能預測的精度,進而推動蛋白質序列-結構-功能映射問題的發展。項目揭示了蛋白質序列的語言特徵;提出了多種蛋白質同源性檢測方法;實現了基於自然語言處理技術的蛋白質結構預測和功能預測方法,取得了良好的結果。項目的研究在生物醫學、人類生活、生產實踐等方面都有著極為重要的意義。