"K-평균"의 두 판 사이의 차이

 
(같은 사용자의 중간 판 23개는 보이지 않습니다)
1번째 줄: 1번째 줄:
{{소문자}}
==개요==
==개요==
;k-means clustering
;k-means, k-means clustering
;k-평균 클러스터링, k-평균 알고리즘, k-평균법
;k-평균, k-평균 군집분석, k-평균 군집화, k-평균 클러스터링, k-평균 알고리즘, k-평균법
* [[비지도 학습]]의 일종
* [[비지도 학습]]의 일종
* 주어진 데이터를 k개의 클러스터로 묶는 알고리즘
* 주어진 데이터를 k개의 클러스터로 묶는 알고리즘
* 군집화 문제를 풀기 위한 자율 학습 알고리즘의 일종
* 군집화 문제를 풀기 위한 자율 학습 알고리즘의 일종
* 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작함
* 데이터를 그룹화하는 데 널리 사용되는 클러스터링 알고리즘
* 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할 수행
* 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다.
* [[EM 알고리즘]]을 이용한 클러스터링과 비슷한 구조를 가지고 있음
* 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다.
* [[EM 알고리즘]]을 이용한 클러스터링과 비슷한 구조를 가지고 있다.
* 군집의 개수가 바뀌면 결과도 상당히 많이 바뀐다.
* [[평균]]을 활용하므로 [[극단치]]의 영향을 받을 수 있다.
* k-평균 알고리즘은 기본적으로 다음과 같은 일을 한다.
** 최고의 중심들을 반복적으로 결정한다.
** 각 예를 가장 가까운 중심에 배정한다. 같은 중심에 가장 가까운 예는 같은 그룹에 속한다.
* k-평균 알고리즘은 각 예가 가장 가까운 중심과 각 예 사이 거리의 누적 제곱을 최소화할 수 있는 중심의 위치를 선택한다.
 
==방법==
* 하나의 군집씨앗을 선택하고 미리 지정한 일정거리 내의 대상들을 군집화
* k개의 군집이 도출될 때까지 계속 진행
* 기존 군집에 속하는 것도 새로운 군집씨앗에 더 가까우면 새로운 군집으로 이동
 
==예시==
* 개의 키와 몸길이를 나타낸 다음 그래프를 예로 들어보자.
 
[[File:DogDimensions.png]]
 
* k=3인 경우 k-평균 알고리즘에서는 3개의 중심을 결정한다.
* 각 예는 가장 가까운 중심에 배정되며, 그 결과 세 개의 그룹이 만들어진다.
 
[[File:DogDimensionsKMeans.png]]
 
* 한 제조업체에서 애견용 스웨터의 S, M, L 사이즈의 이상적인 크기를 결정하고 싶어 한다고 생각해 보자.
* 세 개의 중심은 클러스터에 속한 각 개의 평균 키와 평균 몸길이를 나타낸다.
* 따라서 제조업체에서는 이 세 개의 중심을 기준으로 하여 스웨터의 크기를 설정할 수 있다.
* 일반적으로 한 클러스터의 중심은 해당 클러스터의 예가 아니다.
* 앞의 그림은 키와 몸길이라는 두 개의 특성만 있는 예의 k-평균을 보여주는데, k-평균을 사용하면 여러 가지 특성을 기준으로 예를 그룹화할 수 있다.


==같이 보기==
==같이 보기==
* [[클러스터 분석]]
* [[군집분석]]
* [[k-중앙값]]
* [[계층적 군집분석]]
* [[R kmeans()]]
* [[R kmeans()]]


17번째 줄: 48번째 줄:
* {{위키백과|K-평균 알고리즘}}
* {{위키백과|K-평균 알고리즘}}


[[분류: 군집분석]]
[[분류: 비지도 학습]]
[[분류:머신러닝]]
[[분류:머신러닝]]
[[분류:알고리즘]]
[[분류:알고리즘]]

2021년 5월 29일 (토) 21:02 기준 최신판

1 개요[ | ]

k-means, k-means clustering
k-평균, k-평균 군집분석, k-평균 군집화, k-평균 클러스터링, k-평균 알고리즘, k-평균법
  • 비지도 학습의 일종
  • 주어진 데이터를 k개의 클러스터로 묶는 알고리즘
  • 군집화 문제를 풀기 위한 자율 학습 알고리즘의 일종
  • 데이터를 그룹화하는 데 널리 사용되는 클러스터링 알고리즘
  • 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다.
  • 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다.
  • EM 알고리즘을 이용한 클러스터링과 비슷한 구조를 가지고 있다.
  • 군집의 개수가 바뀌면 결과도 상당히 많이 바뀐다.
  • 평균을 활용하므로 극단치의 영향을 받을 수 있다.
  • k-평균 알고리즘은 기본적으로 다음과 같은 일을 한다.
    • 최고의 중심들을 반복적으로 결정한다.
    • 각 예를 가장 가까운 중심에 배정한다. 같은 중심에 가장 가까운 예는 같은 그룹에 속한다.
  • k-평균 알고리즘은 각 예가 가장 가까운 중심과 각 예 사이 거리의 누적 제곱을 최소화할 수 있는 중심의 위치를 선택한다.

2 방법[ | ]

  • 하나의 군집씨앗을 선택하고 미리 지정한 일정거리 내의 대상들을 군집화
  • k개의 군집이 도출될 때까지 계속 진행
  • 기존 군집에 속하는 것도 새로운 군집씨앗에 더 가까우면 새로운 군집으로 이동

3 예시[ | ]

  • 개의 키와 몸길이를 나타낸 다음 그래프를 예로 들어보자.

DogDimensions.png

  • k=3인 경우 k-평균 알고리즘에서는 3개의 중심을 결정한다.
  • 각 예는 가장 가까운 중심에 배정되며, 그 결과 세 개의 그룹이 만들어진다.

DogDimensionsKMeans.png

  • 한 제조업체에서 애견용 스웨터의 S, M, L 사이즈의 이상적인 크기를 결정하고 싶어 한다고 생각해 보자.
  • 세 개의 중심은 클러스터에 속한 각 개의 평균 키와 평균 몸길이를 나타낸다.
  • 따라서 제조업체에서는 이 세 개의 중심을 기준으로 하여 스웨터의 크기를 설정할 수 있다.
  • 일반적으로 한 클러스터의 중심은 해당 클러스터의 예가 아니다.
  • 앞의 그림은 키와 몸길이라는 두 개의 특성만 있는 예의 k-평균을 보여주는데, k-평균을 사용하면 여러 가지 특성을 기준으로 예를 그룹화할 수 있다.

4 같이 보기[ | ]

5 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}