文檔分類是圖書館學, 信息學和計算機科學中的一個問題。其任務是將一個文檔分配到一個或者多個類別中。它可以是通過人工分類完成的,也可以是通過計算機算法實現的。多數通過人工的文檔分類問題一直屬於圖書館學的領域,而通過算法實現的文檔分類問題則多屬於信息學和計算機科學的領域。這些問題之間是有相同的部分的,所以有一些對文檔分類的跨學科研究。
需要被分類的文檔有可能是純文本,圖片,音樂等等。每一種文檔都有其獨特分類問題。根據特殊的文檔做研究,文檔分類可以細分成文本分類,圖片分類等等。
可以根據主題來進行文檔分類,也可以根據它的屬性(例如文檔的類型,作者,出版的時間等)進行分類。下文只包含主題分類的問題。主要由兩種方法來做根據主題的文檔分類:基於內容的方法以及基於請求的方法。
基本介紹
- 中文名:文檔分類
- 外文名:Document classification
- 分類:計算機科學
分類方法
基於內容的分類
面向請求的分類
文檔自動分類
使用工具
- 最大期望算法(EM)
- tf–idf
- 瞬時訓練神經網路
- 支持向量機(SVM)
- 最近鄰居法
- 決策樹比如ID3或C4.5
- 概念挖掘
- 基於粗集合的分類器
- 基於軟集合的分類器
- 多示例學習
- 自然語言處理的方法
套用領域
- 郵件過濾,一種能夠從合法郵件中檢查出垃圾電子郵件的方法。
- 電子郵件按路線送達, 根據本話題內容中提到的方法將電子郵件送至一個特殊群體的一般地址。
- 語言辨識, 自動辨識一個文檔中的語言。
- 流派分類, 自動辨識一個純文本的流派。
- 可讀性評價, 自動評價一個純文本的可讀性程度,或者找到可讀性適合於某一特定群體的文本,這屬於文本簡化的體系。
- 情感分析,辨析出說話人或者作者在關於某一個主題或者全文的情感或者態度。
- 健康相關的分析,用社交媒體來監管大眾的健康問題。