面向臨床醫療文本的實體時序化問題研究

《面向臨床醫療文本的實體時序化問題研究》是依託哈爾濱工業大學,由湯步洲擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:面向臨床醫療文本的實體時序化問題研究
  • 依託單位:哈爾濱工業大學
  • 項目類別:青年科學基金項目
  • 項目負責人:湯步洲
項目摘要,結題摘要,

項目摘要

近年來,自然語言處理技術在臨床醫學領域受到了廣泛關注,成為這一領域的一個重要分支。我國正在推進以電子病歷為核心的醫院信息化建設工作,臨床醫學NLP技術的發展將有利於醫院信息化的建設和升級。課題將研究臨床醫療文本中實體時序化的關鍵問題,目的在於把一個病人的所有臨床醫療實體準確定位到統一的時間軸上,形成按時間順序排列的醫療實體序列,為其他醫療信息處理系統提供支持。與臨床醫療實體時間關係抽取相比,臨床醫療實體時序化從更深層次挖掘蘊含在臨床醫療文本中的時間信息,包括以下三個方面的內容:1、臨床醫療實體抽取;2、臨床醫療文本中的時間表達式抽取;3、臨床醫療實體時序化。課題將分別對中文和英文臨床醫療文本進行研究。研究成果具有重要的理論價值和實際意義。一方面進一步補充和完善臨床醫療實體時序化理論體系;另一方面填補了面向中文臨床醫療文本的臨床醫療實體時序化技術空白。

結題摘要

近些年,隨著醫療信息化進程的不斷推進,臨床醫療信息處理技術逐漸成為一個新的研究熱點。本課題對臨床醫療文本中實體時序化問題進行了深入研究,目的在於把一個病人的所有臨床醫療實體準確定位到統一的時間軸上,形成按時間順序排列的醫療實體序列,為其他醫療信息處理系統提供支持。課題的主要研究內容包括:1、臨床醫療文本中的隱私信息識別。依據美國HIPAA法案的規定,所有臨床醫療文本數據必須進行匿名化之後才能用於科研和商業。因此課題提出了一種基於集成學習的隱私信息識別方法,並在2014 i2b2和2016 N-GRID國際公開數據集上分別取得了95.11%和91.43%的性能,達到了國際較高的水平。2、連續及非連續臨床醫療實體識別。課題採用BIOHD1234和Multi-label兩種方法對連續和非連續醫療實體進行統一的表示,然後進一步提出了基於深度神經網路的實體識別方法,該方法在人工構建的數據集上取得83.32%的性能,明顯優於其他傳統方法。3、時間表達式抽取及其歸一化。課題針對臨床醫療文本中的時間信息,提出了一種基於規則的抽取方法。該方法在人工構建的數據集上的取得了93.40%的性能,對於時間表達式的歸一化則達到了92.58%的準確率,能夠很好地滿足後續任務對於時間信息的抽取需求,也為課題的順利進行打下了基礎。3、臨床醫療實體時間標引方法研究。課題提出了一種基於循環卷積神經網路的醫療實體時間關係分類方法。該方法結合循環神經網路和卷積神經網路對醫療實體和時間表達式的向量表示進行學習,然後再進一步結合大量人工特徵共同實現對醫療實體時間關係的預測。在人工標註數據集上取得了71.10%的準確率。然後通過標引時間的順序進一步實現了臨床醫療實體的時序化。綜述所述,課題不僅構建了大規模的中文醫療實體時序化語料庫,還針對相關任務提出了相應的解決方法且取得了良好的性能,為臨床醫療信息處理技術的研究具有推動作用。

相關詞條

熱門詞條

聯絡我們