《基於多樣化特徵表達的生物文獻自動分類研究》是依託華東師範大學,由蘭曼擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於多樣化特徵表達的生物文獻自動分類研究
- 項目類別:青年科學基金項目
- 項目負責人:蘭曼
- 依託單位:華東師範大學
項目摘要,結題摘要,
項目摘要
生物文獻的自動分類方法是生物信息學的重要研究內容,也是文本分析與挖掘領域的研究課題,既有理論研究意義,又有實際套用價值。本項目從多樣化生物文本特徵表達的角度研究提高生物文本自動分類的準確性。研究包含三個方面的內容:一是提高自由文本中生物命名實體識別的準確率。二是從自由文本中挖掘蛋白質間互動(PPI)的關係模式,採用的方法包括:依據是否有蛋白質和表征關係的關鍵字或者隱性的互動信息,在單句內發現PPI信息;針對蛋白質互動信息的描述不在同一個單句中的問題,在相鄰近的多句內發現PPI信息;利用搜尋引擎和公共生物信息資料庫等外部網路資源,挖掘蛋白質命名實體互動的表面模式,並利用bootstrap提升表面模式。三是集成多種不同類型的特徵,包括生物命名實體、實體關係模式、詞包法、觸發詞等,利用它們之間信息的互補性,更準確地表達文本的真實內容,從特徵向量和分類器兩個層面的集成提高生物文本自動分類的準確性。
結題摘要
生物文獻的自動分類方法是生物信息學的重要研究內容,也是文本分析與挖掘領域的研究課題,既有理論研究意義,又有實際套用價值。傳統文本分類方法多採用詞包法在文檔層面進行文本表達,這種表達方式摒棄了特徵之間的語義關係。本項目著重從多樣化生物文本特徵表達的角度研究提高生物文本自動分類的準確性的新理論和新方法。本項目在多個不同的層面上(句子內、句子間、摘要文本和全文文本)進行多樣化文本特徵(語義關係、命名實體關係、實體概念互指消岐和語篇關係)的識別分類研究。 本項目深入研究從多層面抽取多種語義關係的方法。首先,在句子內層面進行名詞性短語之間的語義關係識別分類和實體互動關係識別這兩部分的研究。名詞性短語之間語義關係識別可以挖掘實體之間的因果關係,部分與整體關係,來源與實體關係等;實體間互動關係識別則著重在生物實體之間是否有互動關係信息。其次,在句子間層面進行語篇關係識別研究,發現子句之間的因果關係,轉折關係等。然後,在摘要文本和全文文本層面,套用多種文本表達特徵進行生物文本信息分類研究,集成多種不同類型的特徵,包括生物命名實體、實體關係模式、詞包法、觸發詞等,利用它們之間信息的互補性,更準確地表達文本的真實內容,從特徵向量和分類器兩個層面的集成提高生物文本自動分類的準確性。此外,為了提高實體的覆蓋率和準確率,在文檔層面進行實體的共指消解研究。作為基礎研究性課題,本項目的研究內容具有前瞻性和可持續性;套用在生物領域的同時,我們積極擴寬思路,緊跟國際最新的研究熱點,在相關的醫療臨床和醫藥學領域也同時進行初步探索性研究,為項目的後續可持續發展奠定了良好的理論研究基礎。