데이터 전처리

Jmnote (토론 | 기여)님의 2020년 9월 8일 (화) 23:58 판 (→‎주요 유형)

1 개요

data pre-processing, data preprocessing
data 前處理
데이터 전처리, 전처리
  • 데이터 마이닝 절차에서 중요한 단계
  • 분석에 적합하게 데이터를 가공하는 작업
  • 데이터의 특성을 파악하여 잘못된 부분을 바로잡고 분석에 적합한 데이터로 가공하는 과정
  • 특정 분석이나 처리 업무 시 그 기능을 충분히 발휘하고 안정적인 결과를 확보하기 위해서 앞 단에 자료를 적정한 상태로 준비하거나 처리하는 방법
  • 데이터를 분석할 때 주 처리를 실행하기 전에 현재 주목하고자 하는 부분을 선정하거나 패턴을 정형화하여 불필요한 정보를 분리하는 등 예비적인 조작을 하는 것

2 주요 유형

  • 데이터 결합 (예: 행 결합, 열 결합, JOIN)
  • 데이터 분할, 필터링, 샘플링
  • 파생변수 생성 ( 예: 날짜 → 주말/평일 구분, 점수 → 등급 )
  • 더미변수 생성 ( 원-핫 인코딩, 예: 성별 → 0/1 )
  • 결측치 처리 ( 제거·보간 )
  • 이상치 처리 ( 제거·보간 )
  • 스케일 조정 ( 예: MixMax → 0~1, 표준점수, 로그스케일 )
  • 자료형 변경 ( 예: String → Datetime, String → Integer )
  • 기타 데이터 수정·보정

3 예시

처리 R 데이터 전처리 Python 데이터 전처리 비고
행·열 병합
행 병합 R 행 병합 Pandas 데이터프레임 행 병합 SQL UNION
열 병합 R 열 병합 Pandas 데이터프레임 열 병합
이너 조인 R 이너 조인 INNER JOIN
레프트 조인 R 레프트 조인 LEFT JOIN
필터링 R 데이터프레임 필터링 SQL WHERE
파생변수 생성
결측치 처리
결측치 가진 행 제거 R 결측치 가진 행 제거
특정컬럼이 결측치인 행 제거 R 특정컬럼이 결측치인 행 제거
이상치 처리
피벗
언피벗
정규화
시계열 밀당

4 같이 보기

5 참고

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}