《一種改進的k-means初始聚類中心選取算法》是王強、蔣正峰等撰寫的一篇論文。
基本介紹
- 中文名:一種改進的k-means初始聚類中心選取算法
- 作者:王強、蔣正峰
- 發表時間:2010-06-11
- 論文來源:計數機工程與套用
- 分類號:TP301.6
《一種改進的k-means初始聚類中心選取算法》是王強、蔣正峰等撰寫的一篇論文。
K-means算法以誤差平方和作為聚類準則函式,難以成功劃分大小不一、密度不均的類。為此,本文提出了一種改進的K-means算法,首先通過增加初始聚類中心選在小的類、疏的類的機率最佳化初始聚類中心的選取;其次在將數據對象分配給聚類中心時,採用數據對象到聚類中心的加權距離代替傳統K-means算法中的距離;最後使用加權眾數距離...
k均值聚類算法(k-means clustering algorithm)是一種疊代求解的聚類分析算法,其步驟是,預將數據分為K組,則隨機選取K個對象作為初始的聚類中心,然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。每分配一個樣本,聚類的聚類中心會...
k中心算法的基本過程是:首先為每個簇隨意選擇一個代表對象,剩餘的對象根據其與每個代表對象的距離(此處距離不一定是歐氏距離,也可能是曼哈頓距離)分配給最近的代表對象所代表的簇;然後反覆用非代表對象來代替代表對象,以最佳化聚類質量。聚類質量用一個代價函式來表示。當一個中心點被某個非中心點替代時,除了未被...
使用這個基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;層次法 層次法(hierarchical methods),這種方法對給定的數據集進行層次似的分解,直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。例如,在“自底向上”方案中,初始時每一個數據紀錄都組成一個單獨的組,在接下來的疊代...
K-Means算法用簇中對象的平均值來表示劃分的每個簇,其大致的步驟是,首先從隨機抽取的k個數據點作為初始的聚類中心(種子中心),然後計算每個數據點到每個種子中心的距離,並把每個數據點分配到距離它最近的種子中心;一旦所有的數據點都被分配完成,每個聚類的聚類中心(種子中心)按照本聚類(本簇)的現有數據點重新...
基於約束的方法 是約束條件用於半監督聚類的另一主要方法。它以約束作為聚類目標的一部分直接作用於聚類算法, Re- nato Cordeiro de Amorim Birkbeck 等提出一種增強的K-means 聚類算法:基於約束條件少,有效提高效果, 雖然這一方法可以有效地提高輸出效果,但是,當增加約束條件或增加樣本集的情況下,該方法可能得不到...
對於信息缺失的數據來說,EM算法是一種極有效的工具。K均值算法 K-means算法是很典型的基於距離的聚類算法,採用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作為最終目標。其中,k個初始類聚類中心點的選取對聚類結果具有...
原型聚類 原型聚類亦稱為“基於原型的聚類”,此類算法假設聚類結構能夠通過一組原型刻畫,在現實聚類任務中極為常用。通常情形下,算法先對原型進行初始化,然後對原型進行疊代更新求解。採用不同的原型表示、不同的求解方式,將產生不同的算法。K均值算法 給定樣本集 ,‘k-均值’ (k-means)算法針對聚類所得簇...
變數標準化傾向產生基於數量的聚類;樣本標準化傾向產生基於模式的聚類;一般聚類個數在4-6類,不易太多,或太少;統計量 群重心 群中心 群間距離 分層步驟 定義問題與選擇分類變數 聚類方法 確定群組數目 聚類結果評估 結果的描述、解釋 K-means 屬於非層次聚類法的一種 (1)執行過程 初始化:選擇(或人為指定...
聚類中心 聚類中心(cluster center)是2011年經全國科學技術名詞審定委員會審定發布的語言學名詞。定義 在聚類分析中的一個特殊樣本。用來代表某一類,其他樣本通過與它計算距離來決定是否屬於該類。出處 《語言學名詞》
傳統的劃分方法可以擴展到子空間聚類,而不是搜尋整個數據空間。當存在很多屬性並且數據稀疏時,這是有用的。為了達到全局最優,基於劃分的聚類可能需要窮舉所有可能的劃分,計算量極大。實際上,大多數套用都採用了流行的啟發式方法,如k-均值和k-中心算法,漸近的提高聚類質量,逼近局部最優解。這些啟發式聚類方法很...
實際上,大多數套用都採用了流行的啟發式方法,如k-均值和k-中心算法,漸近的提高聚類質量,逼近局部最優解。這些啟發式聚類方法很適合發現中小規模的資料庫中小規模的資料庫中的球狀簇。為了發現具有複雜形狀的簇和對超大型數據集進行聚類,需要進一步擴展基於劃分的方法。[1]使用這個基本思想的算法有:K-MEANS算法...
算法的第一步就是聚類中心的分配,在這一步中我們要把每一個點劃分給各自所屬的聚類中心,這個聚類簇的劃分步驟實際上就是在 對代價函式進行最小化。隨機初始化 如何初始化K均值聚類的方法將引導我們討論如何避開局部最優來構建K均值,我們之前沒有討論太多如何初始化聚類中心,有幾種不同的方法可以用來隨機初始化...
該方法是一種基於實例的方法(Instance-based),與經典的k-means算法具有相同的目標函式,但其在算法原理上與k-means算法存在很大的不同。近鄰傳播算法是一種基於近鄰信息傳遞的聚類算法,該算法以數據集的相似度矩陣作為輸入,算法起始階段將所有的樣本看作是潛在的聚類中心點,同時,將每個樣本點都視為網路中的一個...
12.2.1改進k值選取方式的k均值改進算法 12.2.2改進初始聚類中心選擇方式的k均值改進算法 12.3k均值算法的Python實踐 本章參考文獻 第13章期望最大化算法 13.1EM算法 13.1.1EM算法的思想 13.1.2似然函式和極大似然估計 13.1.3Jensen不等式 13.1.4EM算法的理論和公式推導 13.1.5EM算法的收斂速度 13....
[4]張洪濤,馬燕,張相芬,張玉萍,李順寶,徐曉鐘.基於SIFT和圖像變異分塊的人臉識別算法的軟體V1.0. 軟體登記號:2016SR366534, 2016-12-12.[5]劉利鋒,馬燕,張相芬,張玉萍,趙慧君.圖像匹配軟體V1.0. 軟體登記號:2016SR297016, 2016-10-18.[6]楊傑,馬燕,張相芬,李順寶,王玉善.改進初始聚類中心選取的K-means...
基於模糊粒度計算的聚類是通過歸一化的距離函式將聚類問題映射到距離空間,調節粒度產生對文本集合D的動態聚類劃分。動態聚類既可以作為一個單獨的聚類結果,也可以作為其他算法的一個預處理步驟。K-means算法是一種經典的聚類算法,速度快、消耗資源小,但是算法對初始聚類中心點敏感,容易陷入局部最小值。《粒度計算在...
時間因子可加入到雷射引信目標散射回波混沌粒子群最佳化算法中,在算法後期與 K-means 算法進行有效的結合,實驗結果表明該算法能充分利用混沌粒子群算法的全局搜尋能力,並有效改善 K-means 算法依賴初始聚類中心的問題,算法精度得到很大程度提高。概念 時間因子在雷射引信目標散射回波的仿真模型中,從標準粒子群最佳化算法的...