基本介紹
- 中文名:聚類搜尋算法
- 外文名:Clustering search algorithm
- 學科:計算機科學與技術
- 定義:結合聚類的特點和搜尋的要求
- 有關術語:聚類分析
- 領域:搜尋引擎、市場分析
搜尋算法是利用計算機的高性能來有目的的窮舉一個問題解空間的部分或所有的可能情況,從而求出問題的解的一種方法。一般有枚舉算法、深度優先搜尋、廣度優先搜尋等算法。在解決分類搜尋問題時,聚類搜尋算法是一個不錯的解決方案。聚類搜...
聚類(Cluster)分析是由若干模式(Pattern)組成的,通常,模式是一個度量(Measurement)的向量,或者是多維空間中的一個點。聚類分析以相似性為基礎,在一個聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。算法起源 俗話...
PAM(Partitioning Around Medoid,圍繞中心點的劃分)是聚類分析算法中劃分法的一個聚類方法,是最早提出的k-中心點算法之一。算法簡介 如今數據挖掘的理論越來越廣泛的套用在商業、製造業、金融業、醫藥業、電信業等等許多領域。數據挖掘的...
k均值聚類算法(k-means clustering algorithm)是一種疊代求解的聚類分析算法,其步驟是,預將數據分為K組,則隨機選取K個對象作為初始的聚類中心,然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。
前者將約束作為聚類目標的一部分直接作用於聚類算法,並且依靠用戶提供的標號或約束來指導 算法,產生更合適的數據劃分;後者是使用一種自適 應距離度量,該度量已經被訓練,以滿足監督數據中的標號或根據約束構造某種距離度量並以此為基礎 運行...
BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)是一個綜合的層次聚類算法。它用到了聚類特徵(Clustering Feature, CF)和聚類特徵樹(CF Tree)兩個概念,用於概括聚類描述。聚類特徵樹概括了聚類的有用信息,並且占用...
採用k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。從機器學習的角度講,簇相當於隱藏模式。聚類是搜尋簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練...
AP算法為選出合適的聚類中心而不斷搜尋兩個不同的信息:“吸引度(responsibility)”和“歸屬度(availability)”信息,兩個信息量代表了不同的競爭目的。對每個數據點為蒐集信息,用r(i,j)代表“吸引度”信息,由樣本點指向候選聚類中心...
自動聚類是一種典型的無監督機器學習(無監督學習)方法。聚類試圖將數據集中的樣本劃分為若干個通常不相交的子集,每個子集稱為一個簇,通過這樣的劃分,每一個簇可能對應一些潛在的概念(類別)。需說明的是,概念對於聚類算法而言事先...
該算法的聚類功能主要是通過以下兩個簡單的規則實現的。1.對於提供給對於提供給網路的任一個輸入向量, 確定相應的輸出層獲勝神經元s,其中s=argminc| -Wc|所有的c屬於 。2.確定獲勝神經元 s 的一個鄰域範圍, 按如下公式調整,...
②對搜尋引擎返回的結果進行聚類,使用戶迅速定位到所需要的信息。Hua-Jun Zeng等人提出了對搜尋引擎返回的結果進行聚類的學習算法。比較典型的系統則有vivisimo和infonetware等。系統允許用戶輸入檢索關鍵字,而後對檢索到的文檔進行聚類處理...
《高維空間海量數據快速聚類算法關鍵技術的研究》是依託西安交通大學,由沈鈞毅擔任項目負責人的面上項目。中文摘要 高維空間聚類是當前數據挖掘領域一個急待解決的關鍵問題,在海量數據的情況下,這個問題就更加突出。本項目重點研究高維空間...
然而現實中大部分數據都是高維的, 於是引入“特徵選擇”來降低數據的維度, 但這樣容易導致丟失數據的信息, 為了消除“降維”帶來的負面影響,A grawal 等人於1999年首次提出的PROCLUS算法就是最早的採用自頂而下搜尋策略的投影聚類算法。
特徵選擇只在那些相關的子空間上執行挖掘任務,因此它比特徵轉換更有效地減少維。特徵選擇一般使用貪心策略等搜尋方法搜尋不同的特徵子空間,然後使用一些標準來評價這些子空間,從而找到所需的簇。子空間聚類算法拓展了特徵選擇的任務,嘗試...
並從基於聚類算法的計程車起停點感興趣區域生成,GPS軌跡數據的查詢和搜尋,電信基站數據進行位置預測,及可視化展現平台的設計等多方面開展了工作。 (2) 帶位置信息的多媒體數據,如yelp,大眾點評數據的分析。針對網站中商家的地理信息...
AGNES可以指一種算法,算法難易程度為比較簡單,算法複雜度為較高。算法定義 AGNES(AGglomerative NESting)算法是凝聚的層次聚類方法。AGNES最初將每個對象作為一個簇,然後這些簇根據某些準則被一步一步地合併。例如,在簇A中的一個對象...
《基於改進的K-means聚類算法的汽車市場競爭情報分析》是馬廷博、劉太安等撰寫的一篇論文。摘要 套用AHP(analytic hierarchy process)和EWM(entropy weight method),對中國A級轎車市場數據進行了分析量化處理,設計了競爭威脅數據指標,基於改進的...
特徵選擇和特徵轉換不同,它只在那些相關的子空間上執行挖掘任務,因此它比特徵轉換更有效地減少維。特徵選擇一般使用貪心策略等搜尋方法搜尋不同的特徵子空間,然後使用一些標準來評價這些子空間,從而找到所需的簇。子空間聚類算法拓展了...
《多粒度視角下大規模數據聚類算法研究》是依託山西大學,由趙興旺擔任項目負責人的青年科學基金項目。項目摘要 聚類分析作為大數據信息粒化及信息壓縮的一個基本工具,開展大數據聚類分析新理論與新方法具有重要的意義。本項目針對大數據規模的...
《位置數據的智慧型聚類算法研究》是2021年科學出版社出版的圖書。內容簡介 本書重點研究了位置數據的智慧型聚類學習相關模型和算法前沿,集中反映了作者近年來對空間數據聚類與智慧型最佳化相結合的研究成果,系統闡述了GPS位置數據聚類學習的相關模型...
CLARANS是分割方法中基於隨機搜尋的大型套用聚類算法。在分割方法中最早提出的一些算法大多對小數據集合非常有效,但對大的數據集合沒有良好的可伸縮性。如PAM。CLARA能處理比PAM大的數據集合,其有效性取決於樣本的大小,但當某個採樣得到...
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基於密度的聚類算法。與劃分和層次聚類方法不同,它將簇定義為密度相連的點的最大集合,能夠把具有足夠高密度的區域劃分為簇,並可在噪聲的空間...
聚類是一個將數據集中在某些方面相似的數據成員進行分類組織的過程,聚類就是一種發現這種內在結構的技術,聚類技術經常被稱為無監督學習。1973年,Bezdek等人提出了FCM聚類算法,該方法用隸屬度確定每個數據點屬於某個聚類的程度,是作為...