文本聚類

套用

①文檔聚類可以作為多文檔自動文摘等自然語言處理套用的預處理步驟，比較典型的例子是哥倫比亞大學開發的多文檔文摘系統Newsblaster。Newsblaster將每天發生的重要新聞文本進行聚類處理，並對同主題文檔進行冗餘消除、信息融合、文本生成等處理，從而生成一篇簡明扼要的摘要文檔；

②對搜尋引擎返回的結果進行聚類，使用戶迅速定位到所需要的信息。Hua-Jun Zeng等人提出了對搜尋引擎返回的結果進行聚類的學習算法。比較典型的系統則有vivisimo和infonetware等。系統允許用戶輸入檢索關鍵字，而後對檢索到的文檔進行聚類處理，並輸出各個不同類別的簡要描述，從而可以縮小檢索的範圍，用戶只需關注比較有希望的主題。另外這種方法也可以為用戶二次檢索提供線索；

③對用戶感興趣的文檔（如用戶瀏覽器cache中的網頁）聚類，從而發現用戶的興趣模式並用於信息過濾和信息主動推薦等服務。

④聚類技術還可以用來改善文本分類的結果，如俄亥俄州立大學的Y.C. Fang, S. Parthasarathy和F. Schwartz等人的工作。

⑤數字圖書館服務。通過SOM神經網路等方法，可以將高維空間的文檔拓撲保序地映射到二維空間，使得聚類結果可視化和便於理解，如SOMlib[ ]系統；

⑥文檔集合的自動整理。如Scatter/Gather[ ]是一個基於聚類的文檔瀏覽系統。而微軟的Ji-Rong Wen等人則利用聚類技術對用戶提出的查詢記錄進行聚類，並利用結果更新搜尋引擎網站的FAQ。

算法

劃分法

(partitioning methods)：給定一個有N個元組或者紀錄的數據集，分裂法將構造K個分組，每一個分組就代表一個聚類，K<N。而且這K個分組滿足下列條件：（1）每一個分組至少包含一個數據紀錄；（2）每一個數據紀錄屬於且僅屬於一個分組（注意：這個要求在某些模糊聚類算法中可以放寬）；對於給定的K，算法首先給出一個初始的分組方法，以後通過反覆疊代的方法改變分組，使得每一次改進之後的分組方案都較前一次好，而所謂好的標準就是：同一分組中的記錄越近越好，而不同分組中的紀錄越遠越好。使用這個基本思想的算法有：K-MEANS算法、K-MEDOIDS算法、CLARANS算法；

層次法

(hierarchical methods)：這種方法對給定的數據集進行層次似的分解，直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。例如在“自底向上”方案中，初始時每一個數據紀錄都組成一個單獨的組，在接下來的疊代中，它把那些相互鄰近的組合併成一個組，直到所有的記錄組成一個分組或者某個條件滿足為止。代表算法有：BIRCH算法、CURE算法、CHAMELEON算法等；

文本聚類

基本介紹

套用

算法

劃分法

層次法

基於密度的方法

基於格線的方法

基於模型的方法

相關詞條

熱門詞條