《基於BERT的中文命名實體識別方法》是王希, 張傳武, 劉東升2021年發布的論文。
基本介紹
- 中文名:基於BERT的中文命名實體識別方法
- 外文名:Chinese Named Entity Recognition Method Based on BERT
- 作者:王希, 張傳武, 劉東升
- 關鍵字:命名實體識別;BERT;BLSTM;條件隨機場
內容簡介,
內容簡介
由於中文與英文本身存在較大的差異,中文命名實體識別的研究存在一系列的挑戰。目前來說,BLSTM-CRF模型使用最為廣泛。該模型採用深度學習模型與統計模型相結合的方式進行中文命名實體識別,能夠有效提取出文本中的上下文信息並考慮標籤之間的關係。但由於中文存在多義字或詞,存在一個句子中相同字詞含義差別很大的情況,該模型在這種情況下實體識別的性能並不理想。為了更好地實現字表示既可以包含各種多樣化的句法和語義表示,又可以對多義字進行建模,引入了BERT語言模型,此模型可以根據上下文信息計算出更高的全局性字詞向量表示以及在句中的權重。BERT-BLSTM-CRF命名實體識別模型通過BERT預訓練模型增強詞向量的表示,BLSTM獲取上下文語義標籤序列,再使用CRF求得最優解。本文使用人民日報數據集對提出模型的進行實驗測試,從實驗結果可以發現,該模型的實體識別性能與傳統模型相比有較大的提升。