中文文獻自動分類技術研究

項目摘要

中文文獻自動分類系統是一個智慧型軟體系統。我們採用語料庫和人工智慧相結合的方法。首先抓住中文文本自動分詞中的岐義切分和專有名詞識別的研究。建立了岐義欄位庫，近8萬條。填補了國內空白。在國內，首次使用了中國姓氏和中國地名用字使用度，採用基於統計信息和基於辭彙/詞性規則的算法，使自動分詞的正確率達到96%左右，達到了實用化要求。其次，我們提出了一種基於詞的三維加權自動分類方法。該方法基於《中國檔案分類法》的分類體系，在對文本的歸類判定中，考慮了類別詞的頻度、出現位置和專指度等因素，並輔以規則進行控制和調整。開發了“金融檔案自動分類系統”和“財政公文自動分類系統”，分類正確率達到85%，正在向實用化過渡。

中文文獻自動分類技術研究

基本介紹

相關詞條

熱門詞條