中文醫學文本中關聯信息提取方法研究

中文醫學文本中關聯信息提取方法研究

《中文醫學文本中關聯信息提取方法研究》是依託浙江大學,由李昊旻擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:中文醫學文本中關聯信息提取方法研究
  • 依託單位:浙江大學
  • 項目負責人:李昊旻
  • 項目類別:青年科學基金項目
項目摘要,結題摘要,

項目摘要

關聯信息提取的目的是從文本中自動提取概念及概念間語義關係。醫療文本中蘊含大量關聯的臨床信息,自動提取這些信息服務於各類臨床信息系統是當前醫療信息化亟需的基礎技術。由於自然語言的靈活性以及領域知識表達不足等原因,目前單純依賴語法知識或者機器學習的方法都存在很大局限性,特別是在中文醫學文本處理領域中這樣的研究尚屬空白。本研究的目的是尋求一種能夠有效結合基於語法方法的高準確性和基於機器學習方法高靈活性的方法,探索性地提出一種子語言(Sublanguage)語法淺解析和模式識別機器學習方法相結合的混合算法。本項目將深入研究該混合算法過程中所涉及的關鍵方法和技術,針對中文醫學語言文本處理這樣一個相對薄弱的研究領域建立關聯信息提取的有效方法,對兩類臨床文本(病歷家族史的結構化信息提取、出院小結中時間關聯信息提取)進行測試和評估來驗證方法的有效性。

結題摘要

傳統的面向病歷文本的醫療信息存儲、交換和獲取模式,使得大量臨床信息目前不能獲得更高層次的利用。本研究以自動提取醫學臨床文本中的關聯信息為目的,希望通過一系列的基礎研究和關鍵技術探索,使得中文臨床文檔的利用可以更好的服務於臨床信息化實踐。按照項目申請書擬定的研究計畫本項目開展了以下幾方面的研究: 1. 醫學語言處理基礎設施建設 醫學術語知識詞典是開展醫學語言處理的基礎,本項目之前面向中文的綜合性醫學術語知識庫未見報導。本項目中參考國外研究經驗,首先建立了一個臨床術語語義本體,該本體包含65個頂層語義概念和900多個具有層次結構的子語義概念。然後,基於該語義本體對採集的大規模醫學術語資源進行標註,形成了一個具有6萬多條目的中英文雙語醫學術語知識詞典。經測試該知識庫對於臨床辭彙的覆蓋達到了87.4%。 2. 醫學概念實體提取研究 醫學概念實體的自動提取是開展醫學語言處理研究的基礎。本項目首先開展了基於術語詞典的概念實體提取研究,實現了對於概念實體以及否定語義的自動提取算法,概念的誤檢率僅1.66%,否定檢出的陽性預測率為100%、陰性預測率達98.99%;針對術語詞典無法覆蓋的部分,探索了基於條件隨機場的醫學問題自動識別算法,完全匹配率達到88.37%;針對時間信息這類變體信息,本項目提出了基於正則表達式的時間信息自動提取算法,識別正確率達到95%。 3. 概念實體關係提取研究 概念實體之間的關係是語言處理的難點。本項目探索了三個典型臨床關係提取:(1)通過挖掘建立相應的家族史子語言語法,實現家族史部分家庭成員與疾病問題的關係提取(正確率97.22%);(2)通過建立的時間標記和語義標記,利用條件隨機場訓練來實現對於臨床問題時間屬性的提取(正確率86.94%)。(3)利用醫學子語言理論和連語法解析算法,完全心電圖診斷報告的自動結構化信息提取(完全正確率73.08%)。 本項目依照項目申請書計畫完成了這個三年時間的探索研究,其間培養了三名碩士研究生,並完成了一個博士後工作站報告。發表期刊和會議論文9篇,形成一個大規模中英文雙語醫學術語知識庫和若干軟體模組。作為一個基礎研究,其套用價值將在後續的幾年中逐步顯現,目前該項目的成果正被運用於國家863項目和若干產業產品開發中。

相關詞條

熱門詞條

聯絡我們