蛋白質超二級結構特徵表達及分類算法研究

《蛋白質超二級結構特徵表達及分類算法研究》是依託重慶大學,由鄒東升擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:蛋白質超二級結構特徵表達及分類算法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:鄒東升
  • 依託單位:重慶大學
中文摘要,結題摘要,

中文摘要

蛋白質超二級結構預測研究對於闡明蛋白質空間摺疊機制和功能機理有著重要的科學意義。研究有效的蛋白質超二級結構序列模式的特徵表達方法,設計輸入空間維數低、分類準確率高的學習算法是解決目前超二級結構預測問題的瓶頸與難點。本課題針對現有特徵提取方法沒有考慮序列的順序和耦合信息、殘基長程相互作用和序列殘基統計分布特性以及分類算法輸入空間維數高、準確率低、計算速度慢的缺陷,利用多特徵融合的思想,構建基於胺基酸組成成份、多肽組成成份和胺基酸組成分布的超二級結構序列特徵表達方法;採用離散增量結合雙聯支持向量機的學習算法,降低輸入空間維數,減少計算開銷,提高預測準確率;進一步提出基於粒子群最佳化算法的參數最佳化方法,通過參數調整克服樣本不平衡問題。本課題研究可解決目前超二級結構預測研究中序列模式特徵表達及分類算法上存在的主要缺陷,能夠為我國生物製藥設計、農業生物科技等領域的可持續性研究提供相關科學依據。

結題摘要

蛋白質超二級結構預測研究是結構預測過程中從二級結構到空間結構的重要橋樑,對於闡明蛋白質空間摺疊機制和功能機理有著重要的科學意義。目前超二級結構預測的序列模式特徵表達、學習算法上均存在一定程度上的缺陷:現有特徵提取方法沒有考慮序列的順序和耦合信息、殘基長程相互作用和序列殘基統計分布特性以及分類算法輸入空間維數高、準確率低、計算速度慢。本課題針對這些問題進行研究,主要研究內容如下: ①研究基於偽胺基酸策略組成的超二級結構特徵表達問題。為充分考慮序列的順序和耦合信息、長程相互作用以及序列統計分布特徵信息,採取偽胺基酸組成策略,融合使用胺基酸基本組成成份,多肽組成成份、胺基酸組成分布、偽胺基酸組成成份四種方式表達超二級結構特徵。②研究基於雙聯支持向量機的蛋白質超二級結構預測方法。在學習算法上,首先使用離散量及離散增量表達超二級結構模式的特徵,降低輸入維數,構成的特徵向量作為雙聯支持向量機的輸入。②研究基於粒子群最佳化算法的蛋白質超二級結構預測模型參數最佳化問題。本課題研究採用粒子群最佳化算法進行模型參數最佳化,提高預測精度。 研究結果表明,本研究提出的蛋白質超二級結構序列特徵表達方法能夠更全面地反應序列結構生物進化信息,採用不同的分類算法、在三種數據集上進行實驗,均證明了特徵表達方式的有效性;同時,針對不同的數據集,本研究提出的基於雙聯支持向量機的學習算法比現有的學習算法在分類準確率上均有明顯提高;最後,本研究採用的粒子群最佳化算法對學習模型的參與最佳化有一定作用,預測精度有所提高。本課題對蛋白質超二級結構預測領域的關鍵問題進行研究,研究成果在一定程度上解決了目前超二級結構預測研究中序列模式特徵表達及分類算法上存在的缺陷,進一步推動了蛋白質超二級結構預測領域的研究進展,能夠為我國生物製藥設計、農業生物科技等領域的可持續性研究提供相關科學依據。

熱門詞條

聯絡我們