基於生物醫學文獻的隱含知識發現方法研究

基於生物醫學文獻的隱含知識發現方法研究

《基於生物醫學文獻的隱含知識發現方法研究》是依託大連理工大學,由楊志豪擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於生物醫學文獻的隱含知識發現方法研究
  • 依託單位:大連理工大學
  • 項目類別:面上項目
  • 項目負責人:楊志豪
項目摘要,結題摘要,

項目摘要

以MEDLINE為代表的海量生物醫學文獻資源中,存在大量的蘊含於公開發表的文獻,而尚未被人們認知的隱含知識。採用文本挖掘技術從這座寶庫有效的提取隱含生物醫學知識的需求變得非常迫切。本項目以MEDLINE的生物醫學文獻為主要數據源,在生物實體識別和名稱標準化的基礎上,利用UMLS、MeSH、GO、UniProt、DrugBank、KEGG Database等生物醫學資源,建立基於生物醫學概念的概念空間和基於機率潛在語義索引的潛在語義空間表示;利用信息抽取和段落檢索技術進行醫學概念共現識別;引入監督學習方法,選取包含潛在語義空間相似度、醫學語義關聯度和全局語料庫統計量以及信息抽取的統計特徵等多種特徵來綜合評定概念間的相關度量,最終獲得生物醫學文獻中的隱含知識。此外,本項目將實現挖掘知識的可視化,建立具有實用價值的生物醫學文獻隱含知識發現平台。

結題摘要

以MEDLINE 為代表的海量生物醫學文獻資源中,存在大量的蘊含於公開發表的文獻,而尚未被人們認知的隱含知識。採用文本挖掘技術從這座寶庫有效的提取隱含生物醫學知識的需求變得非常迫切。本項目以MEDLINE 生物醫學文獻為主要數據源,基於特徵耦合泛化(FCG)、深度學習方法實現生物實體識別;基於生物醫學領域知識的語義消歧實現名稱標準化;利用基於深度學習的信息抽取進行醫學概念共現識別;引入監督學習方法,選取包含潛在語義空間相似度、醫學語義關聯度和全局語料庫統計量以及信息抽取的統計特徵等多種特徵來綜合評定概念間的相關度量,最終獲得生物醫學文獻中的隱含知識;在閉合式隱含知識發現方面,提出了邏輯主題路徑的方法,通過文本主題間的邏輯關係進行文本的過濾,然後在邏輯相關的文本中對候選的治療機制進行打分排名,進而對藥物治療關係做出合理的解釋。基於以上技術,本項目已建立具有實用價值的生物醫學文獻隱含知識發現平台。

相關詞條

熱門詞條

聯絡我們