基於核函式的改進k-means文本聚類

《基於核函式的改進k-means文本聚類》是張國鋒,吳國文撰寫的一篇論文。

基本介紹

  • 中文名:基於核函式的改進k-means文本聚類
  • 作者:張國鋒,吳國文
  • 分類號:TP391.1
  • 論文來源:計算機套用與軟體
  • 發表時間:2019-09-12
論文摘要,引文格式,

論文摘要

通過對傳統k-means算法優缺點的研究分析,提出一種改進的k-means聚類算法。隨機初始化k/2個簇心,劃分最大的簇並刪除空簇,在更新簇心的同時判斷簇心位置的合理性;及時對簇心做出修改,使得最後聚類出的k個簇中不會出現空簇;使用高斯核函式作為測量向量之間距離的方法,提高聚類的準確性。基於此改進的k-means算法,使用在不同網站上採集的文章作為數據源,並利用TF-IDF以及Word2Vec技術對文本進行向量化處理,進而完成對文本的聚類任務。與傳統的k-means文本聚類相比,不僅提高了聚類的準確性,而且改善了傳統k-means算法結果可能會出現空簇的缺陷。

引文格式

[1]張國鋒,吳國文.基於核函式的改進k-means文本聚類[J].計算機套用與軟體,2019,36(09):281-284+301.

熱門詞條

聯絡我們