군집 분석

(클러스터링에서 넘어옴)

1 개요[ | ]

clustering, cluster analysis
群集 分析
군집 분석, 클러스터 분석, 클러스터링, 군집화, 군 분석, 군집화 분석
  • 비지도 학습의 일종
  • 와 관련된 그룹화
  • 유사한 데이터의 그룹을 찾아내는 분석
  • 동질성을 발견하여 몇 개의 군집으로 묶는 방법
  • 주어진 데이터들의 특성을 고려해 데이터 집단(클러스터)을 정의하고 대표점을 찾는 것
  • 대상을 유사성 지표에 따라서 여러 개의 집합(클러스터)으로 분류·유형화하는 통계 분석 방법
  • 사전에 정의된 범주가 없는 데이터에서 사례들을 집단으로 묶으면서 최적의 집합을 찾아가는 방법
  • 관측 대상이 띠고 있는 다양한 특성의 유사성을 바탕으로 그 대상을 동질적인 군집으로 결합하거나 여러 대상을 몇 개의 동질적인 군집으로 구분하는 일
  • 데이터 간의 거리를 구하고, 가까운 데이타를 모아 몇 개의 그룹(집락, cluster)으로 분류한다.
  • 모든 예가 그룹으로 묶이고 나면 사람이 선택적으로 각 클러스터에 의미를 부여할 수 있다.
  • 주로 유사성(비유사성, 거리) 기반으로 그룹을 묶는 일이다.
  • 거리 측정방법을 어떻게 할지가 중요하다.
예: 유클리드 거리, 맨하탄 거리 등
  • 여러가지 알고리즘이 사용된다.
  • 알고리즘 분류: 파티셔닝, 밀도, 모델, spectral, ensemble

Cluster-2.svg

2 예시[ | ]

  • k-평균 알고리즘에서는 다음 다이어그램과 같이 각 예의 중심 근접도를 기준으로 클러스터링한다.

Cluster.png

  • 그런 다음 연구자가 클러스터를 검토하고 클러스터 1에는 '난쟁이 나무', 클러스터 2에는 '완전한 크기의 나무'와 같이 이름을 붙인다.
  • 다음과 같이 중심점에서 예가 얼마나 떨어져 있는지를 바탕으로 한 클러스터링 알고리즘도 있을 수 있다.

RingCluster.png

3 적용사례[ | ]

  • 고객 세분화 - 구매행태가 유사한 고객 집단
  • 증상이 유사한 환자 집단

4 분석 기법[ | ]

5 같이 보기[ | ]

6 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}