k均值聚類(k-means clustering)是2018年全國科學技術名詞審定委員會公布的生物物理學名詞。
基本介紹
- 中文名:k均值聚類
- 外文名:k-means clustering
- 所屬學科:生物物理學
- 公布時間:2018年
k均值聚類(k-means clustering)是2018年全國科學技術名詞審定委員會公布的生物物理學名詞。
k均值聚類算法(k-means clustering algorithm)是一種疊代求解的聚類分析算法,其步驟是,預將數據分為K組,則隨機選取K個對象作為初始的聚類中心,然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。
k-平均聚類的目的是:把{\displaystyle n}個點(可以是樣本的一次觀察或一個實例)劃分到k個聚類中,使得每個點都屬於離他最近的均值(此即聚類中心)對應的聚類,以之作為聚類的標準。這個問題將歸結為一個把數據空間劃分為Voronoi ...
採用k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。從機器學習的角度講,簇相當於隱藏模式。聚類是搜尋簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練...
《k-均值聚類》是2020年科學出版社出版的一本圖書,作者是劉馨月。內容簡介 k-均值算法是數據聚類的核心算法,是**入選數據挖掘領域的十大算法的聚類算法。在實際系統中使用的聚類算法基本就是k-均值算法。本書是第一部專門討論k-均值...
(1)K-Means算法:又叫K均值算法,這是目前最著名、使用最廣泛的聚類算法。在給定一個數據集和需要劃分的數目k後,該算法可以根據某個距離函式反覆把數據劃分到k個簇中,直到收斂為止。K-Means算法用簇中對象的平均值來表示劃分的每個...
為了達到全局最優,基於劃分的聚類可能需要窮舉所有可能的劃分,計算量極大。實際上,大多數套用都採用了流行的啟發式方法,如k-均值和k-中心算法,漸近的提高聚類質量,逼近局部最優解。這些啟發式聚類方法很適合發現中小規模的資料庫中...
將快速K中心點聚類算法確定初始中心點的思想套用於全局K-均值聚類算法,對其選取下一個簇的最佳初始中心的方法進行改進,提出選取下一個簇的最佳初始中心的一種新方法.該新方法選擇一個周圍樣本分布相對密集,且距離現有簇的中心比較遠的樣本...
並將密度思想引入k-means算法,提出類內差分均值的概念確定最優聚類數.實現分區後,分別在這些區域中利用重心法對配送中心進行最終的確定.最後實例分析了在西部地區37個城市創建物流配送中心的選址過程,並通過和傳統的k-means聚類的選址結果...
本項目深入研究複雜多視圖高維數據的聚類方法。(1)提出了一種加權的多視圖k均值聚類策略,即在k均值聚類方法中引入了L2,1範數,從而減弱異常數據點對k-均值算法帶來的負面影響,得到更加魯棒的效果。(2)針對多視圖加權策略不能同時...
實際上,大多數套用都採用了流行的啟發式方法,如k-均值和k-中心算法,漸近的提高聚類質量,逼近局部最優解。這些啟發式聚類方法很適合發現中小規模的資料庫中小規模的資料庫中的球狀簇。為了發現具有複雜形狀的簇和對超大型數據集進行...
算法的第一步就是聚類中心的分配,在這一步中我們要把每一個點劃分給各自所屬的聚類中心,這個聚類簇的劃分步驟實際上就是在 對代價函式進行最小化。隨機初始化 如何初始化K均值聚類的方法將引導我們討論如何避開局部最優來構建K均值...
K均值算法 給定樣本集 ,‘k-均值’ (k-means)算法針對聚類所得簇劃分 最小化平方誤差 其中, 是簇 的均值向量。直觀看來,上式在一定程度上刻畫了簇內樣本圍繞均值向量的緊密程度,E值越小,則簇內樣本相似度越高。最小...
課題組取得的學術貢獻包括:(1)將二元矩陣法的高效性和多效用函式的適應性結合起來,在廣義 K-均值理論基礎上,建立了快速組合聚類的理論框架;(2)提出了多樣性組合聚類模型與算法,包括:基於列聯矩陣、協聯矩陣、模擬退火、投票法...
與以往先降維再學習距離測度或聚類導致最終性能依賴於預先降維得到的子空間其質量的方法不同,本項目研究面向高維數據集成降維的半監督聚類方法:(一)如何實現不限定測度陣值空間、同時學習子空間和在該低維子空間的距離測度,為K均值聚...
和Cannot-Link 成對約束產生投影矩陣,在投影空間中對數據聚類生成聚類標 號;第二步,利用線性判別分析(Linear Discriminant Analysis,LDA)選擇子空間;第三步,使用基於成對約 束的 K 均值算法對子空間中的數據聚類。
動態聚類法有許多種方法,在這一節中,我們將討論一種比較流行的動態聚類法——k均值法。它是由麥奎因提出並命名的,其基本步驟如下:(1)選擇k個樣品作為初始凝聚點,或者將所有樣品分成k個初始類,然後將這k個類的重心(均值)作為...
聚類質量用一個代價函式來表示。當一個中心點被某個非中心點替代時,除了未被替換的中心點外,其餘各點被重新分配。為了減輕k均值算法對孤立點的敏感性,k中心點算法不採用簇中對象的平均值作為簇中心,而選用簇中離平均值最近的對象...
K-均值聚類法是一種將圖像分割成K個聚類的疊代技術。基本算法如下:首先從n個數據對象任意選擇 k 個對象作為初始聚類中心;對於所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所...
ISODATA算法是在k-均值算法的基礎上,增加對聚類結果的“合併”和“分裂”兩個操作,並設定算法運行控制參數的一種聚類算法。疊代次數會影響最終結果,疊代參數選擇很重要。算法簡介 全稱:Iterative Selforganizing Data Analysis Techniques ...
標準K-均值聚類的模型,該模型產生一些群集,每個群集都有一個中心。一種考慮這個過程的方式是待聚類的數據符合一些基於高斯過程的機率分布,每個機率分布的均值就是群集的中心。這些機率分布給出了以高斯分布的中心作為群集質心的數據出現在...
6.2 譜系聚類193 6.2.1 譜系聚類的思想193 6.2.2 譜系聚類的步驟194 6.2.3 譜系聚類的MATLAB實現196 6.3 K均值聚類200 6.3.1 K均值聚類的思想200 6.3.2 K均值聚類的步驟200 6.3.3 K均值聚類的MATLAB實現201 6...
書中圍繞分類、回歸、關聯分析、聚類、異常檢測、文本挖掘、時間序列預測、特徵分析等數據挖掘問題,著重介紹了決策樹、k近鄰、人工神經網路、線性回歸、k均值聚類等當今廣泛使用的二十多種算法,針對每一種算法都先以通俗的語言解釋其原理...
3、針對丟失空間位置信息的四個問題,提出顏色直方圖存在計算維數高、易受亮度變化影響、相近顏色缺少相關性以及丟失空間位置信息的四個問題,提出一種基於聚類的空間顏色直方圖方法。該方法首先對圖像進行k-均值聚類。然後在聚類圖上統計考慮...
個對象作為初始聚類中心;而對於所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然後再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重複這一過程...
第4章聚類分析 4.1聚類分析 4.1.1聚類的定義 4.1.2聚類準則 4.1.3基於試探法的聚類設計 4.2數據聚類——K均值聚類 4.2.1K均值聚類簡介 4.2.2K均值聚類原理 4.2.3K均值算法的優缺點 4.2.4K均值聚類的MATLAB實現 4.2...
2.4 K-均值聚類 2.4.1 K-均值聚類算法簡介 2.4.2算法原理 2.4.3K均值算法的一般步驟 2.4.4 K-均值聚類實例 2.5本章小結 習題 第3章 貝葉斯分類 3.1 貝葉斯準則 3.1基於最小錯誤率的貝葉斯準則 3.2基於最小風險的...
第1章 聚類 1.1 簡介 1.2 無監督學習與有監督學習 1.3 聚類的識別 1.3.1 識別聚類 1.3.2 二維數據 1.3.3 練習1:識別數據中的聚類 1.4 關於k均值聚類 1.4.1 無數學k均值演練 1.4.2 對於k均值聚類的...
第10章 聚類 141 10.1 聚類的定義 141 10.2 k均值聚類算法簡介 142 10.3 k均值聚類的套用 143 10.4 簇驗證 144 10.5 如何使用Python執行k均值聚類 145 10.6 如何使用R執行k均值聚類 147 10.7 習題...