基於文本中關係相似性的蛋白質互動作用自動識別研究

基於文本中關係相似性的蛋白質互動作用自動識別研究

《基於文本中關係相似性的蛋白質互動作用自動識別研究》是依託南京航空航天大學,由牛耘擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於文本中關係相似性的蛋白質互動作用自動識別研究
  • 項目類別:青年科學基金項目
  • 項目負責人:牛耘
  • 依託單位:南京航空航天大學
項目摘要,結題摘要,

項目摘要

蛋白質互動作用(PPI)信息是解決大量生物學難題的關鍵,並且隱含在海量生物醫學文本中。儘管現有的基於監督方法的PPI文本自動識別研究已取得了很大進展,但目前的方法仍受限於對單句信息以及標註數據的依賴。本項目提出一種新的從關係相似性出發與半監督學習相結合進行PPI識別的方法。其核心思想是針對文本中蛋白質互動作用的關係描述在不同語言層次上所表現出的相似性,以大規模文本為依據,提取相應的上下文特徵,根據相似性計算對PPI信息進行判斷識別。主要的研究內容和目標為: (1)設計以語義聚類為基礎,體現PPI上下文描述信息分布規律的向量空間模型表示,全面刻畫互動關係;(2)建立新的相似性模型,利用關係實例之間的共性聯繫區別目標對象和噪音,提高PPI的識別精度;(3)實現相似性計算與基於圖的半監督方法的有效結合,突破目前PPI研究中人工標註的瓶頸,擴展自動識別技術的實際套用範圍。

結題摘要

蛋白質互動(PPI)信息是解決很多生物學難題的關鍵。目前大量PPI信息隱含在海量生物醫學文本中。針對現有的蛋白質互動關係識別方法中對單句信息以及標註數據的依賴等問題,本項目以大規模文本庫中提取的蛋白質對描述上下文為依據,綜合不同語言分析層次的特徵,設計了基於關係相似性的計算模型建立蛋白質對之間的語義相似性約束,對蛋白質對關係作出判斷。主要研究內容包括:(1)基於上下文的蛋白質互動關係的文本特徵表示. 採用向量空間模型對上下文信息進行表示,從詞法、句法、語義等多個的語言分析層次提取文本特徵,並根據向量特徵在大規模文本庫中的分布規律來衡量其重要性進行特徵選擇。(2)互動實例的相似性計算. 具體的蛋白質對的關係描述往往只體現在特徵集合的小子集,因此所對應的向量經常表現出很強的稀疏性,直接影響相似性計算的準確性。為此, 本項目採用基於大規模語料庫的策略,通過單詞在其中的分布軌跡來計算蛋白質互動領域相關的單詞語義相似性,然後採用調整向量權值和形成特徵語義聚類兩種方式緩解向量的稀疏問題。實驗結果表明,結合了單詞語義相似性的兩種向量表示方式均取得了高於基本模型的識別精度。(3)與基於圖的半監督算法的結合. 現有採用機器學習方法的PPI識別系統依賴於足夠大的、高質量的標註了蛋白質互動信息的文本集合。構造這樣的訓練集需要耗費大量的人力資源,而標註數據的缺乏則會直接影響識別精度。針對此,本項目提出將關係相似性模型與Minimum Cuts算法的圖模型相結合,利用蛋白質對的相似性對分類進行約束,從而利用較少的標註數據達到較高的識別精度。實驗結果表明,基於語義相似性約束的圖模型依賴更少的標註數據取得了更高的識別精度。半監督實驗結果表明,未標註數據作為訓練數據和測試數據之間的橋樑通過相似性建立起二者之間的聯繫,使得更多的測試數據被正確分類。本項目提出的基於語義相似性約束的PPI識別方法以蛋白質對描述上下文為依據,減少了對人工標註數據的依賴,取得了較高的識別精度。

相關詞條

熱門詞條

聯絡我們