계층적 군집분석

1 개요[ | ]

hierarchical clustering, hierarchical cluster analysis (HCA)
계층적 클러스터링, 계층적 군집분석, 위계적 군집분석, 계층적 군집화, 계층 군집화
  • 분류할 집단에 특정 대상을 배정하여 동일 집단에 속한 대상이 유사성을 갖도록 함으로써 집단 간의 차이를 명확하게 하는 데 이용되는 통계 기법
  • k-평균법에 비해 극단치의 영향을 덜 받는다.

2 metric[ | ]

이름 계산식
유클리드 거리 [math]\displaystyle{ \|a-b \|_2 = \sqrt{\sum_i (a_i-b_i)^2} }[/math]
제곱 유클리드 거리 [math]\displaystyle{ \|a-b \|_2^2 = \sum_i (a_i-b_i)^2 }[/math]
맨하탄 거리 [math]\displaystyle{ \|a-b \|_1 = \sum_i |a_i-b_i| }[/math]
Maximum 거리 [math]\displaystyle{ \|a-b \|_\infty = \max_i |a_i-b_i| }[/math]
Mahalanobis 거리 [math]\displaystyle{ \sqrt{(a-b)^{\top}S^{-1}(a-b)} }[/math][1]

3 연결 기준[ | ]

이름 계산식
완전 연결법(complete-linkage clustering) [math]\displaystyle{ \max \, \{\, d(a,b) : a \in A,\, b \in B \,\}. }[/math]
단일 연결법(single-linkage clustering) [math]\displaystyle{ \min \, \{\, d(a,b) : a \in A,\, b \in B \,\}. }[/math]
비가중평균 연결법(unweighted average linkage clustering, UPGMA) [math]\displaystyle{ \frac{1}{|A|\cdot|B|} \sum_{a \in A }\sum_{ b \in B} d(a,b). }[/math]
가중평균 연결법(weighted average linkage clustering, WPGMA) [math]\displaystyle{ d(i \cup j, k) = \frac{d(i, k) + d(j, k)}{2}. }[/math]
중심연결법(centroid linkage clustering, UPGMC) [math]\displaystyle{ \|c_s - c_t \| }[/math][2]
Minimum energy clustering [math]\displaystyle{ \frac {2}{nm}\sum_{i,j=1}^{n,m} \|a_i- b_j\|_2 - \frac {1}{n^2}\sum_{i,j=1}^{n} \|a_i-a_j\|_2 - \frac{1}{m^2}\sum_{i,j=1}^{m} \|b_i-b_j\|_2 }[/math]

4 같이 보기[ | ]

5 참고[ | ]

  1. S공분산 행렬
  2. where [math]\displaystyle{ c_s }[/math] and [math]\displaystyle{ c_t }[/math] are the centroids of clusters s and t, respectively.
문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}