面向蛋白質結構預測的支持向量機的研究

面向蛋白質結構預測的支持向量機的研究

《面向蛋白質結構預測的支持向量機的研究》是依託華東師範大學,由郭駿擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:面向蛋白質結構預測的支持向量機的研究
  • 項目類別:青年科學基金項目
  • 項目負責人:郭駿
  • 依託單位:華東師範大學
項目摘要,結題摘要,

項目摘要

如何獲得蛋白質的結構是生物學研究的一個重要課題。目前通過實驗方法確定蛋白質結構的過程仍然非常複雜,周期很長。因此,作為輔助方法的結構預測技術的研究非常活躍。尤其是最近剛剛發展起來的基於支持向量機(SVM)的蛋白質結構預測技術,已經顯示了在預測準確率方面遠高於以往方法的優勢。本課題研究面向蛋白質二級結構和結構域預測的SVM,目標是從多個角度提升SVM技術在蛋白質結構預測中的效率性、準確性和可靠性。首先,研究蛋白質結構數據,提出能良好反映數據意義的編碼方法;然後,分別研究面向多類模式識別問題的SVM和並行SVM,提出相應的算法;接下來,尋求把多類SVM和並行SVM相結合的辦法,並套用於蛋白質結構預測,用大量實驗來驗證提出的方法的有效性;最後,開發簡單易用,性能優良的預測軟體。.本課題不僅能推動SVM的發展,同時也為蛋白質結構預測提出了新方法,在科學、工程、社會和經濟效益上都具有及其重要的意義。

結題摘要

在該項目中,我們主要針對多類支持向量機,並行支持向量機,以及它們在蛋白質結構預測中的套用做了一定的研究,同時,研究中也取得了一些原先計畫中沒有提到的成果。首先,我們對目前存在的解決多類別模式識別問題的支持向量機進行了研究,常見的有一對多方法,一對一方法,全集中方法以及DAGSVM等等,但這些方法的訓練過程都是相當耗費時間的。我們的研究中,提出了一種新的訓練方法。該方法中,我們把多類問題中的每一類樣本各自用OCSVM來訓練一次,這樣就獲得了多組支持向量,然後把這些支持向量機組合起來成為新的訓練樣本集,最後用一對一的方法對新樣本集進行訓練得到最終的識別器。該方法雖然比傳統方法多了一步OCSVM的訓練,但是大大縮短了訓練的時候,提高了效率。另外,在研究中,我們還發現了很有意義的支持向量機與支持向量回歸機的關係,提出了基於對稱點的算法。接下去,我們對並行支持向量算法作了研究。目前的並行支持向量算法很少,存在的算法主要是針對最複雜的矩陣計算部分進行並行處理。我們提出了一種通過選擇多組工作集進行並行計算的方法,這種方法可以大大減少分解算法重複的次數,從而達到快速訓練的目的。實驗的結果顯示,這種並行對大部分樣本數據都可行並達到了預期的效果。另外,為了更好地把方法套用到蛋白質結構預測中去,我們對蛋白質結構的數據做了大量的研究。我們發現蛋白質數據的預處理和如何編碼對後期的效果起到很重要的作用。在預處理中,我們從兩種不同的角度出發,提出了兩種方案。一種是用決策樹的方法對樣本數據的特徵添加一定的權重,以達到更好的識別效果,另一種是對於樣本中的一些缺失數據,用支持向量回歸學習的方法來進行插補,來提高數據的有效性,以達到提高識別效果的目的。另外,我們也研究了目前的一些蛋白質編碼方法,提出了兩種編碼方法。一種是把相鄰胺基酸的傾向性編碼進來的二肽頻數的方法。該方法能更好體現蛋白質結構的類別,用先前提出的支持向量機進行分類,得到的實驗結果顯示提出方法的有效性。另一種是新型的滑窗方法。傳統的滑窗方法,一般以單類結構為目標進行滑窗編碼,我們提出了以相鄰兩個胺基酸作為一類的滑窗編碼方法,該算法目前作為研究生的畢業設計正在實驗當中。總體來說,該項目基本按照預期的進程開展的,由於中途有一些新的發現,後面的蛋白質結構域預測方面的研究尚未深入展開。

相關詞條

熱門詞條

聯絡我們