聚類和分類

聚類和分類,情報學中管理信息和進行情報分析研究的重要手段,並且聚類是指利用計算機根據樣本之間的相似度將整個樣本集合聚集成若干個類的過程。

基本介紹

  • 中文名:聚類和分類
  • 所屬學科:情報學
解釋,區別,

解釋

聚類是指利用計算機根據樣本之間的相似度將整個樣本集合聚集成若干個類的過程。其目標是使得屬於同一個類的樣本儘量相似,而屬於不同類的樣本差別明顯。系統聚類法和k-Means算法是目前聚類分析中套用最多的兩種方法。
分類(這裡僅指自動分類)是根據已經掌握的每類若干樣本的數據信息,總結出分類的規律性,建立判別公式和判別規則。當遇到新的樣本時,只需根據判別公式和判別規則,就能判別該樣本所屬的類別。
分類技術包括統計、模式識別、人工智慧、神經網路等多個領域。目前常用的分類方法有Bayes判別法、k最近鄰(kNN)方法、支持向量機(SVM)方法、決策樹方法等。

區別

聚類是一種無指導的學習過程,而分類則是有指導的學習過程。聚類和分類的區別還在於:聚類事先沒有類表,完全是按照樣本間的相似度來進行,即先有樣本後有類;而分類則是基於某種預定的類表,將類表中的條目賦給樣本,即先有類後有樣本。

相關詞條

熱門詞條

聯絡我們