《基於自然語言處理技術的DNA結合蛋白質預測》是依託哈爾濱工業大學,由王曉龍擔任項目負責人的面上項目。
基本介紹
- 中文名:基於自然語言處理技術的DNA結合蛋白質預測
- 依託單位:哈爾濱工業大學
- 項目類別:面上項目
- 項目負責人:王曉龍
項目摘要,結題摘要,
項目摘要
蛋白質組成人體內部的微觀世界,自然語言是人們之間的交流工具。作為同一載體的內外兩種不同表達形式,必然存在著某種固有聯繫。蛋白質一級結構是由胺基酸組成的字元串,而自然語言是由字詞組成的字元串。本項目以自然語言處理為基礎,探索DNA結合蛋白質識別的理論和方法,通過挖掘蛋白質中的“詞”、“語法”和“語義”,並結合自然語言處理技術提高預測精度。研究內容包括:(1)蛋白質特徵提取方法研究;(2)基於自然語言處理技術的DNA結合蛋白質識別方法研究;(3)DNA結合蛋白質特徵分析研究;(4)DNA結合蛋白質識別平台構建研究。本項目的研究在理論上將完善DNA結合蛋白質識別方法,在套用上將推動相關產業的發展,如農業和醫藥業。
結題摘要
DNA結合蛋白質涉及多種生物過程,例如DNA的轉錄、修飾、摺疊等。準確識別DNA結合蛋白質有助於更好地理解人類生命活動,也有助於對人類疾病的研究。本項目以自然語言處理技術為基礎,研究DNA結合蛋白質識別的理論和方法。本項目主要研究內容包括以下4部分:1.蛋白質特徵提取方法及工具包的開發。本項目組針對計算模型中特徵提取問題開發了一個用於自動提取蛋白質序列特徵並能夠構建預測模型的python軟體包Pse-Analysis。對於用戶來說,用戶只需要提供基準數據集,該軟體可以為用戶省去繁瑣步驟並生成用戶需要的預測結果。該軟體的開發為生物領域的研究者們構建預測模型提供了極大的便利。2.臨床醫療文本的相關問題的分析與研究。針對此領域問題,本項目組的主要研究問題包括臨床醫療文本的去隱私化處理方法,臨床醫療實體的識別方法研究和臨床醫療實體的時間標引方法研究。針對每個問題,本項目組均構建了不同的模型並進行比較分析,實驗結果表明本項目組構建的方法能夠取得較好的預測性能。3.蛋白質遠同源性檢測方法的研究。對於蛋白質遠同源性檢測問題,本課題組對其研究現狀進行了總結與分析,並開發了基於偽蛋白質的序列譜及排序策略的檢測方法和基於序列順序頻率矩陣的檢測方法。實驗結果表明本項目組提出的方法均取得了較好的預測性能。4.固有無序蛋白質識別方法的研究。對於固有無序蛋白質識別問題,本課題組對其研究現狀進行了總結與分析,並開發了基於條件隨機場的固有無序蛋白質識別方法和具有長度依賴的固有無序蛋白質的識別方法。實驗結果表明本項目組提出的方法均取得了較好的預測性能。綜上,本項目組按照項目計畫的研究方向和內容開展了較為深入的研究工作,並在重要國際期刊和會議上發表了論文24篇;培養了博士生3人,碩士生8人,項目按計畫完成。