"K-평균"의 두 판 사이의 차이

2021년 5월 29일 (토) 21:02 기준 최신판

1 개요[ | ]

k-means, k-means clustering
k-평균, k-평균 군집분석, k-평균 군집화, k-평균 클러스터링, k-평균 알고리즘, k-평균법

비지도 학습의 일종
주어진 데이터를 k개의 클러스터로 묶는 알고리즘
군집화 문제를 풀기 위한 자율 학습 알고리즘의 일종
데이터를 그룹화하는 데 널리 사용되는 클러스터링 알고리즘
각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다.
레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다.
EM 알고리즘을 이용한 클러스터링과 비슷한 구조를 가지고 있다.
군집의 개수가 바뀌면 결과도 상당히 많이 바뀐다.
평균을 활용하므로 극단치의 영향을 받을 수 있다.
k-평균 알고리즘은 기본적으로 다음과 같은 일을 한다.
- 최고의 중심들을 반복적으로 결정한다.
- 각 예를 가장 가까운 중심에 배정한다. 같은 중심에 가장 가까운 예는 같은 그룹에 속한다.
k-평균 알고리즘은 각 예가 가장 가까운 중심과 각 예 사이 거리의 누적 제곱을 최소화할 수 있는 중심의 위치를 선택한다.

2 방법[ | ]

하나의 군집씨앗을 선택하고 미리 지정한 일정거리 내의 대상들을 군집화
k개의 군집이 도출될 때까지 계속 진행
기존 군집에 속하는 것도 새로운 군집씨앗에 더 가까우면 새로운 군집으로 이동

3 예시[ | ]

개의 키와 몸길이를 나타낸 다음 그래프를 예로 들어보자.

k=3인 경우 k-평균 알고리즘에서는 3개의 중심을 결정한다.
각 예는 가장 가까운 중심에 배정되며, 그 결과 세 개의 그룹이 만들어진다.

한 제조업체에서 애견용 스웨터의 S, M, L 사이즈의 이상적인 크기를 결정하고 싶어 한다고 생각해 보자.
세 개의 중심은 클러스터에 속한 각 개의 평균 키와 평균 몸길이를 나타낸다.
따라서 제조업체에서는 이 세 개의 중심을 기준으로 하여 스웨터의 크기를 설정할 수 있다.
일반적으로 한 클러스터의 중심은 해당 클러스터의 예가 아니다.
앞의 그림은 키와 몸길이라는 두 개의 특성만 있는 예의 k-평균을 보여주는데, k-평균을 사용하면 여러 가지 특성을 기준으로 예를 그룹화할 수 있다.

4 같이 보기[ | ]

5 참고[ | ]

@@ 1번째 줄: / 1번째 줄: @@
+{{소문자}}
 ==개요==
-;k-means clustering
+;k-means, k-means clustering
-;k-평균 클러스터링, k-평균 알고리즘, k-평균법
+;k-평균, k-평균 군집분석, k-평균 군집화, k-평균 클러스터링, k-평균 알고리즘, k-평균법
 * [[비지도 학습]]의 일종
 * 주어진 데이터를 k개의 클러스터로 묶는 알고리즘
 * 군집화 문제를 풀기 위한 자율 학습 알고리즘의 일종
-* 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작함
+* 데이터를 그룹화하는 데 널리 사용되는 클러스터링 알고리즘
-* 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할 수행
+* 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다.
-* [[EM 알고리즘]]을 이용한 클러스터링과 비슷한 구조를 가지고 있음
+* 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다.
+* [[EM 알고리즘]]을 이용한 클러스터링과 비슷한 구조를 가지고 있다.
+* 군집의 개수가 바뀌면 결과도 상당히 많이 바뀐다.
+* [[평균]]을 활용하므로 [[극단치]]의 영향을 받을 수 있다.
+* k-평균 알고리즘은 기본적으로 다음과 같은 일을 한다.
+** 최고의 중심들을 반복적으로 결정한다.
+** 각 예를 가장 가까운 중심에 배정한다. 같은 중심에 가장 가까운 예는 같은 그룹에 속한다.
+* k-평균 알고리즘은 각 예가 가장 가까운 중심과 각 예 사이 거리의 누적 제곱을 최소화할 수 있는 중심의 위치를 선택한다.
+==방법==
+* 하나의 군집씨앗을 선택하고 미리 지정한 일정거리 내의 대상들을 군집화
+* k개의 군집이 도출될 때까지 계속 진행
+* 기존 군집에 속하는 것도 새로운 군집씨앗에 더 가까우면 새로운 군집으로 이동
+==예시==
+* 개의 키와 몸길이를 나타낸 다음 그래프를 예로 들어보자.
+[[File:DogDimensions.png]]
+* k=3인 경우 k-평균 알고리즘에서는 3개의 중심을 결정한다.
+* 각 예는 가장 가까운 중심에 배정되며, 그 결과 세 개의 그룹이 만들어진다.
+[[File:DogDimensionsKMeans.png]]
+* 한 제조업체에서 애견용 스웨터의 S, M, L 사이즈의 이상적인 크기를 결정하고 싶어 한다고 생각해 보자.
+* 세 개의 중심은 클러스터에 속한 각 개의 평균 키와 평균 몸길이를 나타낸다.
+* 따라서 제조업체에서는 이 세 개의 중심을 기준으로 하여 스웨터의 크기를 설정할 수 있다.
+* 일반적으로 한 클러스터의 중심은 해당 클러스터의 예가 아니다.
+* 앞의 그림은 키와 몸길이라는 두 개의 특성만 있는 예의 k-평균을 보여주는데, k-평균을 사용하면 여러 가지 특성을 기준으로 예를 그룹화할 수 있다.
 ==같이 보기==
-* [[클러스터 분석]]
+* [[군집분석]]
+* [[k-중앙값]]
+* [[계층적 군집분석]]
 * [[R kmeans()]]
@@ 17번째 줄: / 48번째 줄: @@
 * {{위키백과|K-평균 알고리즘}}
+[[분류: 군집분석]]
+[[분류: 비지도 학습]]
 [[분류:머신러닝]]
 [[분류:알고리즘]]