"데이터 전처리"의 두 판 사이의 차이

 
(같은 사용자의 중간 판 12개는 보이지 않습니다)
9번째 줄: 9번째 줄:
* 데이터를 분석할 때 주 처리를 실행하기 전에 현재 주목하고자 하는 부분을 선정하거나 패턴을 정형화하여 불필요한 정보를 분리하는 등 예비적인 조작을 하는 것
* 데이터를 분석할 때 주 처리를 실행하기 전에 현재 주목하고자 하는 부분을 선정하거나 패턴을 정형화하여 불필요한 정보를 분리하는 등 예비적인 조작을 하는 것


==유형==
==주요 유형==
* 데이터 결합 (JOIN, UNION 등)  
* 데이터 결합 (예: 행 결합, 열 결합, JOIN)
* 데이터 변형
* 데이터 분할, 필터링, 샘플링
* 데이터 분할, 샘플링
* [[파생변수]] 생성 ( 예: 날짜 → 주말/평일 구분, 점수 → 등급 )
* 파생 변수 생성 ( 예: 날짜 → 주말/평일 구분 )
* [[더미변수]] 생성 ( [[원-핫 인코딩]], 예: 성별 → 0/1 )
* 가변수 생성 ( one hot 인코딩, 예: 범주형 → 0,1,2 )
* [[결측치]] 처리 ( 제거·보간 )
* 데이터 수정·보정
* [[이상치]] 처리 ( 제거·보간 )
* 결측치 처리
* 스케일 조정 ( 예: MixMax → 0~1, 표준점수, 로그스케일 )
* 이상치 처리
* 자료형 변경 ( 예: String → Datetime, String → Integer )
* 기타 데이터 수정·보정


==예시==
==예시==
83번째 줄: 84번째 줄:
* [[데이터 분석]]
* [[데이터 분석]]
* [[데이터 편집]](data editing)
* [[데이터 편집]](data editing)
* [[데이터 합치기]]
* [[데이터 클린징]](data cleansing)
* [[데이터 클린징]](data cleansing)
* [[데이터 리덕션]](data reduction)
* [[데이터 리덕션]](data reduction)

2021년 7월 24일 (토) 14:25 기준 최신판

1 개요[ | ]

data pre-processing, data preprocessing
data 前處理
데이터 전처리, 전처리
  • 데이터 마이닝 절차에서 중요한 단계
  • 분석에 적합하게 데이터를 가공하는 작업
  • 데이터의 특성을 파악하여 잘못된 부분을 바로잡고 분석에 적합한 데이터로 가공하는 과정
  • 특정 분석이나 처리 업무 시 그 기능을 충분히 발휘하고 안정적인 결과를 확보하기 위해서 앞 단에 자료를 적정한 상태로 준비하거나 처리하는 방법
  • 데이터를 분석할 때 주 처리를 실행하기 전에 현재 주목하고자 하는 부분을 선정하거나 패턴을 정형화하여 불필요한 정보를 분리하는 등 예비적인 조작을 하는 것

2 주요 유형[ | ]

  • 데이터 결합 (예: 행 결합, 열 결합, JOIN)
  • 데이터 분할, 필터링, 샘플링
  • 파생변수 생성 ( 예: 날짜 → 주말/평일 구분, 점수 → 등급 )
  • 더미변수 생성 ( 원-핫 인코딩, 예: 성별 → 0/1 )
  • 결측치 처리 ( 제거·보간 )
  • 이상치 처리 ( 제거·보간 )
  • 스케일 조정 ( 예: MixMax → 0~1, 표준점수, 로그스케일 )
  • 자료형 변경 ( 예: String → Datetime, String → Integer )
  • 기타 데이터 수정·보정

3 예시[ | ]

처리 R 데이터 전처리 Python 데이터 전처리 비고
행·열 병합
행 병합 R 행 병합 Pandas 데이터프레임 행 병합 SQL UNION
열 병합 R 열 병합 Pandas 데이터프레임 열 병합
이너 조인 R 이너 조인 INNER JOIN
레프트 조인 R 레프트 조인 LEFT JOIN
필터링 R 데이터프레임 필터링 SQL WHERE
파생변수 생성
결측치 처리
결측치 가진 행 제거 R 결측치 가진 행 제거
특정컬럼이 결측치인 행 제거 R 특정컬럼이 결측치인 행 제거
이상치 처리
피벗
언피벗
정규화
시계열 밀당

4 같이 보기[ | ]

5 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}