구간화

1 개요[ | ]

bucketing, data binning, binning
區間
구간화, 버킷팅 [bΛkitiŋ], 버키팅, 버켓팅 버킷화, 데이터 비닝, 비닝
  • 데이터 분석, 처리 또는 모델링 과정에서 연속적인 데이터를 여러 개의 구간으로 나누는 작업
  • 하나의 특성(일반적으로 연속)을 버킷(bucket) 또는 빈(bin)이라고 하는 여러 이진 특성으로 변환하는 작업
  • 일반적으로 값 범위를 기준으로 한다.
  • 주로 연속형 변수를 범주형 변수로 변환하거나 데이터를 정리하고 시각화하기 위해 사용된다.
  • 구간화를 통해 데이터의 복잡성을 줄이고 패턴을 더 쉽게 파악할 수 있다.
  • 예를 들어 온도를 하나의 부동 소수점 연속 특성으로 표현하는 대신 온도 범위를 불연속 빈으로 나눌 수 있다.
  • 민감도가 1/10도인 온도 데이터가 있다면 0.0~15.0도 범위의 모든 온도를 1번 빈에, 15.1~30.0도 범위를 2번 빈에, 30.1~50.0도 범위를 3번 빈에 넣을 수 있다.

2 장단점[ | ]

2.1 장점[ | ]

  • 데이터를 요약하고 간소화하여 분석과 해석이 쉬워짐
  • 시각화가 쉬워짐
  • 잡음 제거 효과로 인해 모델 성능 향상 가능

2.2 단점[ | ]

  • 데이터 손실 - 구간화 과정에서 상세정보 유실
  • 구간 경계 선택에 따른 왜곡 가능성
  • 구간화의 기준이 데이터에 적합하지 않으면 부정확한 결과를 초래할 수 있음

3 같이 보기[ | ]

4 참고[ | ]