開放獲取生物醫學文獻的實體關係抽取

開放獲取生物醫學文獻的實體關係抽取

《開放獲取生物醫學文獻的實體關係抽取》是依託吉林大學,由豐小月擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:開放獲取生物醫學文獻的實體關係抽取
  • 項目類別:青年科學基金項目
  • 項目負責人:豐小月
  • 依託單位:吉林大學
項目摘要,結題摘要,

項目摘要

海量開放獲取生物醫學文獻中蘊含著大量的知識,對其進行深度挖掘意義重大。然而全文文獻中的實體關係挖掘面臨著高維稀疏矩陣計算、語義漂移和謂詞發現問題。針對這些問題,本項目擬開展如下研究:1.提出基於文獻空間結構信息和表示學習模型的深度學習實體關係抽取算法,有效處理長尾分布實體及其關係上面臨的嚴重稀疏問題。2.針對實體關係抽取中的語義漂移問題,分析其形成原因和類別,提出度量方法,融合深度學習與半監督學習模型解決語義漂移問題。3.將生物醫學實體和關係生成知識圖譜,運用路徑排序算法和本體擴展模型從兩實體間的多步關係路徑預測它們之間的關係,發現新的謂詞。4.將新提出的模型和算法整理形成生物醫學文獻開放實體關係抽取平台,為生物學家和醫學家提供服務。

結題摘要

海量的開放獲取生物醫學文獻中蘊含著大量的知識,對其進行深度挖掘意義重大。項目致力於利用表示學習框架下的新型、高效的關係抽取技術,構建為生物學家和臨床醫生提供更加高效、準確的知識發現平台,使其能夠快速的從海量生物醫學文獻數據中挖掘出更有意義和價值的知識。主要工作如下:1.充分利用大量未標記的生物醫學文獻數據,深入挖掘海量生物醫學命名實體之間的關係。採用殘差卷積神經網路進行蛋白質關係抽取,基於表示學習、表示主題模型進行糖尿病和肥胖症關係抽取;基於主題模型的阿爾茲海默症研究趨勢分析;實驗結果證明了上述模型的有效性,促進了深度學習算法在蛋白質關係抽取、疾病間關係抽取以及疾病研究熱點分析等領域的套用。2.在實體關係抽取模型基礎上生成生物醫學知識圖譜,並運用關係路徑特徵學習及關係路徑嵌入模型補全知識圖譜。大規模知識圖譜中的實體規模已經數以億計,但是由於關係稀疏,它們還遠未完善。路徑特徵學習模型通過兩階段模型完成路徑特徵學習及路徑預測。關係路徑嵌入模型時將每個實體嵌入兩種類型的潛在空間。而且,類型約束從傳統的特定關係的類型約束擴展到新提出的特定路徑的類型約束。上述模型對於知識圖譜補全,知識表示具有重要意義。3.基於表示學習進行關係抽取與研究熱點分析模型,搭建推薦系統及知識發現平台。採用卡方特徵選擇及深度卷積神經網路以實現摘要的語義表示,分別完成了計算機科學及生物醫學期刊論文投稿推薦系統;整理相關模型並搭建了生物醫學複雜關係抽取與知識發現平台( http://www.keaml.cn/BMKnowledge/ ),為多學科交叉研究提供決策支持。上述工作相關成果發表在Journal of Medical Internet Research(醫學信息學領域排名第一),Knowledge-Based System (中科院二區期刊),International Journal of Biological Sciences(中科院二區期刊)等知名期刊上。項目執行期間共發表SCI索引論文12篇,CCF B類會議IEEE International Conference on Bioinformatics and Biomedicine上發表學術論文1篇,EI索引期刊論文1篇。獲得國家發明專利授權3項,軟體著作權1項。獲2018年吉林省科技進步二等獎1項。

相關詞條

熱門詞條

聯絡我們