1 개요[ | ]
- clustering, cluster analysis
- 群集 分析
- 군집 분석, 클러스터 분석, 클러스터링, 군집화, 군 분석, 군집화 분석
- 비지도 학습의 일종
- 예와 관련된 그룹화
- 유사한 데이터의 그룹을 찾아내는 분석
- 동질성을 발견하여 몇 개의 군집으로 묶는 방법
- 주어진 데이터들의 특성을 고려해 데이터 집단(클러스터)을 정의하고 대표점을 찾는 것
- 대상을 유사성 지표에 따라서 여러 개의 집합(클러스터)으로 분류·유형화하는 통계 분석 방법
- 사전에 정의된 범주가 없는 데이터에서 사례들을 집단으로 묶으면서 최적의 집합을 찾아가는 방법
- 관측 대상이 띠고 있는 다양한 특성의 유사성을 바탕으로 그 대상을 동질적인 군집으로 결합하거나 여러 대상을 몇 개의 동질적인 군집으로 구분하는 일
- 데이터 간의 거리를 구하고, 가까운 데이타를 모아 몇 개의 그룹(집락, cluster)으로 분류한다.
- 모든 예가 그룹으로 묶이고 나면 사람이 선택적으로 각 클러스터에 의미를 부여할 수 있다.
- 주로 유사성(비유사성, 거리) 기반으로 그룹을 묶는 일이다.
- 거리 측정방법을 어떻게 할지가 중요하다.
- 예: 유클리드 거리, 맨하탄 거리 등
- 여러가지 알고리즘이 사용된다.
- 알고리즘 분류: 파티셔닝, 밀도, 모델, spectral, ensemble
2 예시[ | ]
- k-평균 알고리즘에서는 다음 다이어그램과 같이 각 예의 중심 근접도를 기준으로 클러스터링한다.
- 그런 다음 연구자가 클러스터를 검토하고 클러스터 1에는 '난쟁이 나무', 클러스터 2에는 '완전한 크기의 나무'와 같이 이름을 붙인다.
- 다음과 같이 중심점에서 예가 얼마나 떨어져 있는지를 바탕으로 한 클러스터링 알고리즘도 있을 수 있다.
3 적용사례[ | ]
- 고객 세분화 - 구매행태가 유사한 고객 집단
- 증상이 유사한 환자 집단
4 분석 기법[ | ]
5 같이 보기[ | ]
6 참고[ | ]
- SWOT을 쓰면 뭔가 기계적으로 네 칸을 다 채워야 한다는 강박에 뭔가 쥐어짜곤 합니다. ㅎㅎ
―
Pinkcrimson - 기획이 원래 그런 걸까요? 죽이든 밥이든 채워넣는.. ㅎㅎ
― Jmnote
- 뭐 저런게 SWOT 분석의 Weak포인트겠지요 -_-
―
Pinkcrimson