yja938882.github.io

Clustering

Good Clustering

좋은 클러스터링의 특징


Distance between clusters


Major Clustering Approaches


Partitioning Approaches

K-Means K-Modes K-Medoids PAM CLALA


K-Means

  centroid 가 클러스터를 대표

K-Modes

Caregorical 한 데이터를 다룬다.

  mode 가 cluster 를 대표

K-Medoids

   Medoid 가 cluster 를 대표

PAM

Partitioning Around Medoids


CLALA

Clustering Large Applicaion

  여러개의 sample을 추출한뒤 각각에 PAM을 적용, 가장 좋은 결과를 사용

Hierarchical Approaches

AGNES DIANA BIRCH ROCK CHAMELEON


AGNES

Agglomerative Nesting

  single link Method 와 dissimilarity matrix 를 이용
  dissimilarity 가 작은 노드 두개를 합치는 것을 반복
  결국 모든 노드가 같은 클러스터에 속하게 됨

DIANA

Divisive Analysis

  AGNES의 역순으로 진행
  결국 모든 노드는 각각 자신이 클러스터를 형성

BIRCH

Balanced Iterative Reducing and Clustering using Hierarchies

   1. Scan DB -> Construct CF tree
   2. leaf nodes 를 대상으로 Clustering Algorithm 을 수행

ROCK

Robust Clustring Using Links
Categorical 한 데이터를 다루기 위한 방법.

CHAMELEON

Hierarchical Clustering Using Dynamic Modeling
Relative interconnectivity 와 Relative Closeness 가 높은 두 클러스터를 하나로 합친다.

  1. k-NN ( k-nearest neighbor ) graph 를 만든다
  2 - A : Graph partitioning algorithm 을 사용한다
  2 - B : agglomerative hierarchical clustering algorithm 을 사용한다.

Density-Based Approaches

DBSCAN OPTICS


DBSCAN

Density Base Spatial Clustering of Applications with Noise
Density connetected point 의 최대 set 을 cluster 로 정의


OPTICS

Ordering Points To Identify the Clustering parameter Eps 를 range로 받는다.