面向蛋白質功能預測的多標記學習方法研究與套用

項目摘要

蛋白質功能預測是生物信息學領域的關鍵問題。針對當前的預測方法通常假定已知蛋白質標註準確無缺失，不符合現實特徵的缺點，本項目將蛋白質的領域信息與多標記學習相結合，考慮功能標註集合的缺失標註和噪聲標註，結合弱標記學習和部分標記學習，探索能夠有效去除噪聲標記，精確補全蛋白質的缺失標記和預測其功能的計算方法，為蛋白質功能的利用、藥物研發等提供參考信息，為機器學習方法在蛋白質功能預測中的套用奠定基礎，指導相關生物實驗，為其節省成本，推動生命科學研究的發展。同時，研究中通過生物學問題檢驗計算方法的效果，指導計算方法的改進，將推動多標記學習和部分標記學習研究進一步拓展和深化。本項目擬:(1)提出面向蛋白質功能預測的多標記弱標記學習方法、相關標記和不相關標記下多標記學習方法、多標記部分標記學習方法;(2)共享算法軟體代碼，推廣套用到多物種蛋白質數據集和通用數據集上;(3)發表高水平期刊和會議論文6-8篇。

結題摘要

蛋白質功能預測是生物信息學領域的關鍵問題。針對當前的研究工作通常假定已知蛋白質標註準確無缺失，不符合現實特徵的缺點，本項目考慮功能標註集合的缺失標註和噪聲標註，通過多標記學習對蛋白質的多種領域信息進行建模表示，並重點研究了結合基因本體結構的弱標記學習，相關標註與不相關標註下的多標記學習方法，部分標註下的多標記學習方法。在本項目資助下，取得如下成果：(1)針對不完整標註下的蛋白質功能標註補充與預測問題，結合蛋白質新增功能標註的特點和基因本體結構，提出了多種弱標記學習方法對蛋白質的缺失標註進行有效補充和完全未標註功能的蛋白質進行全新功能預測。(2)針對相關標註和不相關標註下的蛋白質功能預測問題，設計了多種相關標註和不相關標註下多標記學習方法預測蛋白質的不相關功能標註和相關功能標註。(3)針對部分標註下的蛋白質功能預測問題，結合基因本體語義分析，功能標註的證據屬性和稀疏表示設計了多標記偏標記學習方法對蛋白質的噪聲功能標註進行有效識別。(4)提出多種基於多源數據集成的蛋白質功能預測方法、將研究成果拓展到疾病數據分析挖掘領域，並將算法研究成果泛化一般的多標記學習，驗證了其通用性。項目組總計發表（或錄用）學術論文33篇，其中在Bioinformatics, IEEE/ACM Transactions on Computational Biology and Bioinformatics, BMC Bioinformatics, BMC Systems Biology，《中國科學－信息科學》，《軟體學報》和《計算機研究與發展》等國內外主流期刊上發表論文31篇；在SIAM Conference on Data Mining(CCF推薦B類)和ICONIP(CCF推薦C類)國際會議上各發表論文1篇；共享多個算法模型代碼和相關數據集給國內外同行使用，申請獲批２項軟體著作著作權。結合本項目研究工作，培養碩士生9人，本科生2人。本項目對利用和設計機器學習方法預測蛋白質功能具有借鑑和指導作用，對基因本體結構數據處理分析和多源數據整合挖掘具有重要的理論意義，拓展並深化了計算機科學中多標記學習問題的研究與套用。

面向蛋白質功能預測的多標記學習方法研究與套用

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條