中文文獻自動分類技術研究

中文文獻自動分類技術研究

《中文文獻自動分類技術研究》是依託山西大學,由劉開瑛擔任項目負責人的面上項目。

基本介紹

  • 中文名:中文文獻自動分類技術研究
  • 項目類別:面上項目
  • 項目負責人:劉開瑛
  • 依託單位:山西大學
  • 批准號:69673011
  • 申請代碼:F0211
  • 負責人職稱:教授
  • 研究期限:1997-01-01 至 1999-12-31
  • 支持經費:10(萬元)
項目摘要
中文文獻自動分類系統是一個智慧型軟體系統。我們採用語料庫和人工智慧相結合的方法。首先抓住中文文本自動分詞中的岐義切分和專有名詞識別的研究。建立了岐義欄位庫,近8萬條。填補了國內空白。在國內,首次使用了中國姓氏和中國地名用字使用度,採用基於統計信息和基於辭彙/詞性規則的算法,使自動分詞的正確率達到96%左右,達到了實用化要求。其次,我們提出了一種基於詞的三維加權自動分類方法。該方法基於《中國檔案分類法》的分類體系,在對文本的歸類判定中,考慮了類別詞的頻度、出現位置和專指度等因素,並輔以規則進行控制和調整。開發了“金融檔案自動分類系統”和“財政公文自動分類系統”,分類正確率達到85%,正在向實用化過渡。

相關詞條

熱門詞條

聯絡我們