《面向蛋白質亞細胞定位的特徵提取與預測模型研究》是依託西安電子科技大學,由張勝利擔任項目負責人的數學天元基金項目。
基本介紹
- 中文名:面向蛋白質亞細胞定位的特徵提取與預測模型研究
- 項目類別:數學天元基金項目
- 項目負責人:張勝利
- 依託單位:西安電子科技大學
中文摘要,結題摘要,
中文摘要
蛋白質亞細胞定位預測目前已經成為蛋白質科學和生物信息學研究中的一個熱點問題,對蛋白質的功能、相互作用及調控機制的研究具有重要的意義。但是,從序列信息獲取角度來看,現有方法所獲取的信息較單一,各個層面的信息沒有得到很好的融合。因此如何系統地融合不同的信息來預測蛋白質亞細胞定位是一個迫切需要解決的問題。本項目針對蛋白質亞細胞定位預測中信息的提取、挑選及融合等問題展開,重點研究如何充分提取蛋白質序列及結構信息,挑選核心信息,尋找預測策略的有效建模方法。主要內容包括:綜合利用統計分析理論提取胺基酸出現頻率信息、位置分布信息及二級結構的序列信息,並建立蛋白質多重信息組合模型,基於相對重要性的隨機森林對多源信息進行有效地融合、挑選,通過設計合理的預測方案,提高蛋白質亞細胞定位預測的精確度。該項目立項,對蛋白質亞細胞定位的高精度預測,進而對蛋白質功能和相互作用的進一步研究,都有著重要的理論和實際意義。
結題摘要
蛋白質亞細胞定位預測目前已經成為蛋白質科學和生物信息學研究中的一個熱點問題,對蛋白質的功能、相互作用及調控機制的研究具有重要的意義。針對蛋白質亞細胞定位預測中信息的提取、挑選及融合等問題,本項目重點研究了如何充分提取蛋白質序列及結構信息,挑選核心信息,尋找預測策略的有效建模方法。主要內容包括:綜合利用統計分析理論提取胺基酸出現頻率信息、位置分布信息,二級結構的序列信息(PSSS)以及考慮偽位置特異性打分矩陣(PsePSSM)中包含的進化信息等,並構建了蛋白質多重信息組合模型,基於主成分分析(PCA)等對多源信息進行有效地融合、挑選,最後通過設計合理的預測算法,提高了蛋白質結構類及亞細胞定位預測的精確度。具體研究成果為:1. 利用胺基酸的疏水特性和三聯體組分等特徵,研究了凋亡蛋白亞細胞定位的高精度預測問題。 2.對於任意給定的多重片段蛋白質序列,我們利用條件LZ複雜度(CLZ)和修正的Hausdorff距離(MHD)給出了一種新的基於距離的非比對序列分析方法,並對刺突蛋白和冠狀病毒蛋白序列進行了相似性分析和進化分析。3. 利用基於PSIPRED預測的蛋白質二級結構信息(PSSS)與偽位置特異性打分矩陣(PsePSSM)中的進化信息,並結合Chou的偽胺基酸組分(PseAAC),提出了一個新的預測模型PSSS-PsePSSM。4. 將三種不同的自相關描述子套用到位置特異性打分矩陣中,進一步證實PSSM中包含了有用的進化信息。5. 考慮了交換詞頻和正規化的LZ複雜度信息,從特徵選擇的角度改善了蛋白質結構類的預測精度,這些都為蛋白質亞細胞定位的高精度預測打下了堅實的基礎。項目組圓滿完成了研究計畫,取得了一系列的具有獨創性的結果。本項目的研究對蛋白質亞細胞定位的高精度預測,進而對蛋白質功能和相互作用的進一步研究,都有著重要的理論和實際意義。一年來,共完成論文6篇,其中5篇被SCI期刊錄用,1篇已投SCI期刊處於小修狀態,另外申請國家發明專利一項(已公示)。