面向生物醫學領域的文本挖掘技術研究與套用

項目摘要

以MEDLINE的生物醫學文獻為主要數據源，利用改進的編輯距離和隱馬爾可夫鏈、條件隨機域等機器學習方法，完成基因、蛋白質等的實體名字識別，進而挖掘基因、蛋白質、疾病和藥物之間的相互關係，以此進行生物醫學領域的假設發現，建立具有實用價值的生物醫學知識發現系統。面向具體生物醫學套用領域，綜合利用MeSH（醫學主題詞）、UMLS（統一醫學語言系統）和GO（基因本體）以及相應的中文生物醫學主題詞資源，利用基於實例的機器學習和潛在語義分析技術，建立中文生物醫學文本的概念標註和信息抽取機制，將中英文相關文本統一在相同的語義視圖之下，在此基礎上構造雙語生物醫學文本的交叉挖掘模型。同時對於生物醫學領域中知識模式的挖掘、檢索和評價機制進行深入的研究，從而建立面向生物醫學領域的跨語言文本挖掘平台。

面向生物醫學領域的文本挖掘技術研究與套用

基本介紹

相關詞條

熱門詞條