《基於核函式的改進k-means文本聚類》是張國鋒,吳國文撰寫的一篇論文。
基本介紹
- 中文名:基於核函式的改進k-means文本聚類
- 作者:張國鋒,吳國文
- 分類號:TP391.1
- 論文來源:計算機套用與軟體
- 發表時間:2019-09-12
論文摘要,引文格式,
論文摘要
通過對傳統k-means算法優缺點的研究分析,提出一種改進的k-means聚類算法。隨機初始化k/2個簇心,劃分最大的簇並刪除空簇,在更新簇心的同時判斷簇心位置的合理性;及時對簇心做出修改,使得最後聚類出的k個簇中不會出現空簇;使用高斯核函式作為測量向量之間距離的方法,提高聚類的準確性。基於此改進的k-means算法,使用在不同網站上採集的文章作為數據源,並利用TF-IDF以及Word2Vec技術對文本進行向量化處理,進而完成對文本的聚類任務。與傳統的k-means文本聚類相比,不僅提高了聚類的準確性,而且改善了傳統k-means算法結果可能會出現空簇的缺陷。
引文格式
[1]張國鋒,吳國文.基於核函式的改進k-means文本聚類[J].計算機套用與軟體,2019,36(09):281-284+301.