DBSCAN

概念

DBSCAN中的幾個定義：

Ε鄰域：給定對象半徑為Ε內的區域稱為該對象的Ε鄰域；

核心對象：如果給定對象Ε鄰域內的樣本點數大於等於MinPts，則稱該對象為核心對象；

直接密度可達：對於樣本集合D，如果樣本點q在p的Ε鄰域內，並且p為核心對象，那么對象q從對象p直接密度可達。

密度可達：對於樣本集合D，給定一串樣本點p₁,p₂….p_n，p= p₁,q= p_n,假如對象p_i從p_i-1直接密度可達，那么對象q從對象p密度可達。

密度相連：存在樣本集合D中的一點o，如果對象o到對象p和對象q都是密度可達的，那么p和q密度相聯。

可以發現，密度可達是直接密度可達的傳遞閉包，並且這種關係是非對稱的。密度相連是對稱關係。DBSCAN目的是找到密度相連對象的最大集合。

Eg: 假設半徑Ε=3，MinPts=3，點p的E鄰域中有點{m,p,p1,p2,o}, 點m的E鄰域中有點{m,q,p,m1,m2},點q的E鄰域中有點{q,m},點o的E鄰域中有點{o,p,s},點s的E鄰域中有點{o,s,s1}.

那么核心對象有p,m,o,s(q不是核心對象，因為它對應的E鄰域中點數量等於2，小於MinPts=3)；

點m從點p直接密度可達，因為m在p的E鄰域內，並且p為核心對象；

點q從點p密度可達，因為點q從點m直接密度可達，並且點m從點p直接密度可達；

點q到點s密度相連，因為點q從點p密度可達，並且s從點p密度可達。

DBSCAN算法描述:

輸入: 包含n個對象的資料庫，半徑e，最少數目MinPts;

輸出:所有生成的簇，達到密度要求。

(1)Repeat

(2)從資料庫中抽出一個未處理的點；

(3)IF抽出的點是核心點 THEN 找出所有從該點密度可達的對象，形成一個簇；

(4)ELSE 抽出的點是邊緣點(非核心對象)，跳出本次循環，尋找下一個點；

(5)UNTIL 所有的點都被處理。

DBSCAN對用戶定義的參數很敏感，細微的不同都可能導致差別很大的結果，而參數的選擇無規律可循，只能靠經驗確定。

DBScan需要二個參數：掃描半徑 (eps)和最小包含點數(minPts)。任選一個未被訪問(unvisited)的點開始，找出與其距離在eps之內(包括eps)的所有附近點。

如果附近點的數量 ≥ minPts，則當前點與其附近點形成一個簇，並且出發點被標記為已訪問(visited)。然後遞歸，以相同的方法處理該簇內所有未被標記為已訪問(visited)的點，從而對簇進行擴展。

如果附近點的數量 < minPts，則該點暫時被標記作為噪聲點。