군집 분석

1 개요[ | ]

비지도 학습의 일종
예와 관련된 그룹화
유사한 데이터의 그룹을 찾아내는 분석
동질성을 발견하여 몇 개의 군집으로 묶는 방법
주어진 데이터들의 특성을 고려해 데이터 집단(클러스터)을 정의하고 대표점을 찾는 것
대상을 유사성 지표에 따라서 여러 개의 집합(클러스터)으로 분류·유형화하는 통계 분석 방법
사전에 정의된 범주가 없는 데이터에서 사례들을 집단으로 묶으면서 최적의 집합을 찾아가는 방법
관측 대상이 띠고 있는 다양한 특성의 유사성을 바탕으로 그 대상을 동질적인 군집으로 결합하거나 여러 대상을 몇 개의 동질적인 군집으로 구분하는 일
데이터 간의 거리를 구하고, 가까운 데이타를 모아 몇 개의 그룹(집락, cluster)으로 분류한다.
모든 예가 그룹으로 묶이고 나면 사람이 선택적으로 각 클러스터에 의미를 부여할 수 있다.
주로 유사성(비유사성, 거리) 기반으로 그룹을 묶는 일이다.
거리 측정방법을 어떻게 할지가 중요하다.

예: 유클리드 거리, 맨하탄 거리 등