大規模生物醫學文獻醫學主題詞的高精度自動標註研究

《大規模生物醫學文獻醫學主題詞的高精度自動標註研究》是依託復旦大學,由朱山風擔任項目負責人的面上項目。

基本介紹

  • 中文名:大規模生物醫學文獻醫學主題詞的高精度自動標註研究
  • 依託單位:復旦大學
  • 項目類別:面上項目
  • 項目負責人:朱山風
項目摘要,結題摘要,

項目摘要

生物醫學文獻醫學主題詞的精確標註對於廣大生物醫學研究人員意義重大,不僅能夠幫助研究人員快速找到所需文獻,而且為他們進一步挖掘文獻,發現新的知識奠定堅實基礎。本項目的主要目標是開發大規模生物醫學文獻醫學主題詞的高精度自動標註算法,幫助標註人員高效精確標註每年70多萬篇生物醫學文獻,從而更好的服務於廣大生物醫學研究人員。本課題以生物醫學文獻醫學主題詞的預測為研究對象,在機器學習的理論框架指導下,設計基於表示學習的算法獲得文獻的合適特徵表示彌補詞袋錶示的不足;然後設計基於多標記學習的算法有效處理高達27000多個醫學主題詞的預測;最後設計基於排序學習的算法有機融合不同表示、預測方法和信息,以提高預測精度。擬解決的科學問題包括:(1)如何結合生物醫學文獻特點設計合適的文獻表示;(2)如何設計考慮醫學主題詞之間相關性的高效預測算法;(3)排序學習中如何為候選醫學主題詞設計高區分度特徵。

結題摘要

最大的生物醫學文獻資料庫MEDLINE覆蓋了全世界5600多種學術期刊,收錄了超過2900萬醫學文獻記錄。 每年新增文獻近100萬篇,平均每篇文檔標註約13個醫學主題詞(MeSH)。生物醫學文獻醫學主題詞的精確標註對於廣大生物醫學研究人員意義重大,不僅能夠幫助研究人員快速找到所需文獻,而且為他們發現新的知識奠定堅實基礎。本項目的主要目標是開發大規模生物醫學文獻醫學主題詞的高精度自動標註算法。主要研究內容包括(1)結合生物醫學文本的特點,如何獲得合適的生物醫學文獻特徵表示;(2)基於不同特徵表示方法,研究多種高效精確的多標記算法解決大規模生物醫學文獻醫學主題詞預測問題;(3)研究融合策略,即如何有效融合不同特徵表示、多種預測算法和各種信息的有效途徑,從而提高預測精度。本項目的重要研究成果包括 (1)基於深度語義表示的MeSH標註算法DeepMeSH; 它使用深度語義表示D2V-TFIDF將稀疏表示和密集語義表示連線在一起,基於排序學習集成了從新語義表示中生成的各種類型的證據,提高大規模MeSH標註的精度。(2)基於全文的MeSH標註算法FullMeSH; 它很好的利用了目前日益增長的全文文獻, 將全文分成幾部分,如摘要、介紹、方法、實驗和結論。每部分單獨訓練一個基於注意力的卷積神經網路,同時結合稀疏語義表示和深度語義表示,將不同部分的證據整合到排序學習框架中,從而獲得了標註性能的提升。(3)基於標籤樹和注意力感知的深度學習算法AttentionXML;它通過引入基於原始文本的多標籤注意機製作為輸入捕獲每個標籤最相關文本,解決了目前其他方法難以捕獲標籤相關子文本的問題。它還通過使用一種淺而寬的機率標籤樹處理百萬級別的標籤範圍,突破了先前方法套用於超大標籤規模的可擴展性瓶頸。這些算法不僅在生物信息學和機器學習頂級會議或期刊發表,同時也在相關國際競賽中獲得驗證。除此之外,這些算法的核心思想也可以用來解決其他大規模多標籤學習問題,如蛋白功能預測、藥物靶標相互作用預測等。

相關詞條

熱門詞條

聯絡我們