"데이터 분할"의 두 판 사이의 차이

15번째 줄: 15번째 줄:
* [[검증셋]]
* [[검증셋]]
* [[테스트셋]]
* [[테스트셋]]
* [[R 데이터 분할]]
* [[파이썬 데이터 분할]]
* [[k-분할 교차검증]]
* [[k-분할 교차검증]]



2020년 5월 4일 (월) 17:22 판

1 개요

data splitting
data 分割
데이터 분할
  • 데이터를 '훈련셋+테스트셋' 또는 '훈련셋+검증셋+테스트셋' 등으로 나누는 일
  • 훈련셋과 테스트셋의 비율을 어떻게 할지는 정해진 규칙은 없다.
  • 일반적으로는 7:3 또는 8:2 정도로 한다.
  • 3~5년치 시계열데이터의 경우, 마지막 1개년을 테스트셋으로 하는 경우가 흔하다.
  • 사례 수가 적으면, 테스트셋 선택에 따라 예측력의 차이가 매우 클 수 있다.

2 같이 보기

3 참고

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}