k-평균

1 개요[ | ]

k-means, k-means clustering
k-평균, k-평균 군집분석, k-평균 군집화, k-평균 클러스터링, k-평균 알고리즘, k-평균법
  • 비지도 학습의 일종
  • 주어진 데이터를 k개의 클러스터로 묶는 알고리즘
  • 군집화 문제를 풀기 위한 자율 학습 알고리즘의 일종
  • 데이터를 그룹화하는 데 널리 사용되는 클러스터링 알고리즘
  • 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다.
  • 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다.
  • EM 알고리즘을 이용한 클러스터링과 비슷한 구조를 가지고 있다.
  • 군집의 개수가 바뀌면 결과도 상당히 많이 바뀐다.
  • 평균을 활용하므로 극단치의 영향을 받을 수 있다.
  • k-평균 알고리즘은 기본적으로 다음과 같은 일을 한다.
    • 최고의 중심들을 반복적으로 결정한다.
    • 각 예를 가장 가까운 중심에 배정한다. 같은 중심에 가장 가까운 예는 같은 그룹에 속한다.
  • k-평균 알고리즘은 각 예가 가장 가까운 중심과 각 예 사이 거리의 누적 제곱을 최소화할 수 있는 중심의 위치를 선택한다.

2 방법[ | ]

  • 하나의 군집씨앗을 선택하고 미리 지정한 일정거리 내의 대상들을 군집화
  • k개의 군집이 도출될 때까지 계속 진행
  • 기존 군집에 속하는 것도 새로운 군집씨앗에 더 가까우면 새로운 군집으로 이동

3 예시[ | ]

  • 개의 키와 몸길이를 나타낸 다음 그래프를 예로 들어보자.

DogDimensions.png

  • k=3인 경우 k-평균 알고리즘에서는 3개의 중심을 결정한다.
  • 각 예는 가장 가까운 중심에 배정되며, 그 결과 세 개의 그룹이 만들어진다.

DogDimensionsKMeans.png

  • 한 제조업체에서 애견용 스웨터의 S, M, L 사이즈의 이상적인 크기를 결정하고 싶어 한다고 생각해 보자.
  • 세 개의 중심은 클러스터에 속한 각 개의 평균 키와 평균 몸길이를 나타낸다.
  • 따라서 제조업체에서는 이 세 개의 중심을 기준으로 하여 스웨터의 크기를 설정할 수 있다.
  • 일반적으로 한 클러스터의 중심은 해당 클러스터의 예가 아니다.
  • 앞의 그림은 키와 몸길이라는 두 개의 특성만 있는 예의 k-평균을 보여주는데, k-평균을 사용하면 여러 가지 특성을 기준으로 예를 그룹화할 수 있다.

4 같이 보기[ | ]

5 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}