"데이터 분할"의 두 판 사이의 차이

2020년 5월 5일 (화) 12:05 기준 최신판

@@ 3번째 줄: / 3번째 줄: @@
 ;[[data]] [[分割]]
 ;데이터 분할
-* 데이터를 '훈련셋+테스트셋' 또는 '훈련셋+검증셋+테스트셋' 등으로 나누는 일
+* 데이터를 '훈련 데이터+테스트 데이터' 또는 '훈련 데이터+검증 데이터+테스트 데이터' 등으로 나누는 일
+* 훈련셋과 테스트셋의 비율을 어떻게 할지는 정해진 규칙은 없다.
+* 일반적으로는 7:3 또는 8:2 정도로 한다.
+* 3~5년치 시계열데이터의 경우, 마지막 1개년을 테스트셋으로 하는 경우가 흔하다.
 * 사례 수가 적으면, 테스트셋 선택에 따라 예측력의 차이가 매우 클 수 있다.
+==분할 데이터 활용절차==
+[[파일:train_test_detail.png]]
+[[파일:train_validate_test_detail.png]]
 ==같이 보기==
+{{z컬럼3|
 * [[분할]]
 * [[데이터]]
@@ 13번째 줄: / 22번째 줄: @@
 * [[테스트셋]]
 * [[k-분할 교차검증]]
+* [[R 데이터 분할]]
+* [[파이썬 데이터 분할]]
+}}
 ==참고==