自動分類

自動聚類由計算機系統按照被考察對象的內部或外部特徵,根據一定的要求(如類別的數量限制,同類對象的親近程度等等),將相近、相似或相同特徵的對象聚合在一起的過程。目前常用的自動聚類方法有:關聯詞法、文獻--文獻相似矩陣法、聚叢法和因子分析法等。自動歸類是指計算機系統按照一定的分類標準或分類參考,將被考察對象劃歸到不同類目的過程。目前常用的自動歸類方法有語義分析法、語法分析法和統計法等。

基本介紹

  • 中文名:自動分類
  • 對象計算機系統
  • 依據:被考察對象的內部或外部特徵
  • 方法:文獻--文獻相似矩陣法
定義,自動聚類,自動歸類,

定義

計算機系統代替人工對文獻等對象進行分類。一般包含自動聚類與自動歸類。

自動聚類

在文獻的手工分類過程中,人們往往根據文獻的主題內容,以公認的科學分類體系(如《杜威十進分類法》、《國際十進分類法》、《中國圖書資料分類法》等),來決定每篇文獻的分類號。可以說,文獻的分類過程,就是人們根據一定的分類標準給文獻以分類號的過程。文獻分類的目的是為了便於人們按文獻的內在特徵,即所屬類別進行查找。自動分類與手工分類相比,其類目體系的決定更科學、更靈活,文獻的定類更整齊劃一。同時,由於勞力的限制,人工分類往往不細、不全(大多一篇文獻劃歸一類),而自動分類則可克服這些缺點,並有很大的潛力。特別是自動聚類與自動分類的結合,將使自動分類體系具有新陳代謝的生命特徵,並將為高效的聚類檢索奠定基礎。

自動歸類

文獻的自動分類研究始於20世紀60年代初,最早是由R.M.尼達姆等人進行的。從馬羅的第一個自動分類模型發展至今,無論在理論研究上還是實際運用上均取得相當的進展。由於種種原因,特別是中文計算機處理能力的限制,在中國關於自動分類的研究還剛剛開始不久。
由於計算機自動分析主題等研究還沒有取得實質性的進展,所以,現在自動分類大部分都建立在題中或文摘中關鍵字的基礎上,它的缺點是不能準確地按文獻主題分類。但據有關資料表明,專家的偏愛也常使其分類的質量與普通標引員的分類質量相差無幾,而自動分類現有的水平與之也差不多,然而其速度與規定性則是手工分類無法比擬的。因此,它正在受到人們越來越大的重視,成為情報檢索中一個重要的研究與發展方向。特別是它與聚類檢索的結合,將使其有更強的生命力。

相關詞條

熱門詞條

聯絡我們