面向健康管理數據的關聯型知識深度挖掘方法研究

《面向健康管理數據的關聯型知識深度挖掘方法研究》是依託北京大學,由許焱擔任負責人的青年科學基金項目。

基本介紹

  • 中文名:面向健康管理數據的關聯型知識深度挖掘方法研究
  • 項目負責人:許焱
  • 項目類別:青年科學基金項目
  • 依託單位:北京大學
項目摘要,結題摘要,

項目摘要

從海量的健康管理數據中進行關聯性知識挖掘是將信息轉化為結構化知識的關鍵步驟,也為進一步的自動化知識推理和個性化健康診療提供了重要依據。傳統的數據挖掘方法在處理海量數據時,健壯性和精確性都會受到很大影響,而深度學習方法能夠克服這個難題,並已經在圖像識別和語音識別領域被廣泛套用。但在自然語言處理領域,文本數據的結構複雜性和語義多樣性使得深度神經網路的設計依然是個巨大的挑戰。. 針對這些問題,在已有工作的基礎上,本課題將以健康管理的海量數據為目標對象,研究用深度學習的方法從其中挖掘出關聯性知識,具體包括:健康管理相關的關係類別定義;句子的解析樹模型與圖模型的轉化;圖模型的語義剪枝策略;深度神經網路的設計;基於深度神經網路的核技巧關係抽取;健康管理關聯型知識封裝。其中,重點解決的問題是基於剪枝生成子圖的深度神經網路設計以及基於深度神經網路的核函式設計。

結題摘要

在健康管理領域,知識挖掘技術能夠用於將健康信息結構化,進而在構建健康管理本體、健康知識問答等方面發揮著重要作用。通常,知識挖掘包含兩個方面:(1)首先是實體識別,它是指從各種信息來源中檢測出實體指代並將其歸類到一定的實體類別中;(2)其次是語義關係識別,它是指識別並歸類這些實體間可能存在的語義關係。信息醫學界已經在實體識別研究上取得了重要成果;但在關係抽取研究上,現有的方法還局限於手動構建啟發式的關係抽取規則或是手動收集關係抽取特徵。在健康管理數據高速增長的今天,這種模式已經很難應付數據的海量性以及文本描述的多樣性、歧義性。本課題擬針對健康管理數據的關聯型知識挖掘問題,定製一套基於深度神經網路的方法,準確地識別/歸類健康管理數據中蘊含的關係。 目前我們已經設計出一整套基於深度循環神經網路的通用關係抽取方法,其中一項成果(深度循環神經網路DRNNs)已被COLING2106收錄。在關係抽取的國際通用基準測試集SemEval2010 task8上,深度循環神經網路關係抽取方法DRNNs取得了86.1%的F1-score,該指標達到了國際領先水平,超過了所有的競爭對手。該基於循環神經網路的關係抽取方法是通用和泛領域的,不僅僅可以用於醫學領域,還可以擴展到各種商業領域,有很大推廣價值。並且,該方法能夠識別出概念與概念間的語義關係,是構建大型的知識庫、知識圖譜的重要手段之一。下一步還需要把該方法套用健康管理領域,實現該領域的關係抽取。

相關詞條

熱門詞條

聯絡我們