"훈련, 검증, 테스트 데이터"의 두 판 사이의 차이

 
(사용자 2명의 중간 판 14개는 보이지 않습니다)
1번째 줄: 1번째 줄:
==개요==
==개요==
;훈련, 검증, 테스트 데이터
* [[데이터 분할]]의 결과물
* 머신러닝에서는 3가지를 제공하는 게 일반적이다.
{| class='wikitable'
{| class='wikitable'
| 훈련 데이터 || training data, training dataset, training set
| [[훈련 데이터]] || training data, training dataset, training set || 모델 훈련에 사용
|-
|-
| 검증 데이터 || validation data, validation dataset
| [[검증 데이터]] || validation data, validation dataset || 모델 훈련간 [[epoch (머신러닝)|epoch]]마다 검증에 사용 (훈련 데이터에 대한 과적합 방지)
|-
|-
| 테스트 데이터 ||  test data, test dataset, holdout dataset
| [[테스트 데이터]] ||  test data, test dataset, holdout dataset || 훈련이 끝난 모델의 성능 검증에 사용
|}
|}


[[파일:Traintest.svg|700px]]
[[파일:Traintest.svg|700px]]
==분할==
* 어떻게 나눌까? 정답은 없음
:시계열 데이터의 경우 일반적으로 최근 1년을 테스트셋으로, 나머지를 트레이닝셋으로 함


==같이 보기==
==같이 보기==
18번째 줄: 17번째 줄:
* [[데이터셋]]
* [[데이터셋]]
* [[교차-검증]]
* [[교차-검증]]
* [[데이터 분할]]
* [[통계적 분류]]
* [[통계적 분류]]
* [[훈련 MSE, 테스트 MSE]]


==참고==
==참고==
25번째 줄: 26번째 줄:
* {{네이버백과}}
* {{네이버백과}}


[[분류: 데이터셋]]
[[분류:데이터 세트]]
[[분류:머신러닝]]

2024년 1월 25일 (목) 15:12 기준 최신판

1 개요[ | ]

훈련, 검증, 테스트 데이터
  • 데이터 분할의 결과물
  • 머신러닝에서는 3가지를 제공하는 게 일반적이다.
훈련 데이터 training data, training dataset, training set 모델 훈련에 사용
검증 데이터 validation data, validation dataset 모델 훈련간 epoch마다 검증에 사용 (훈련 데이터에 대한 과적합 방지)
테스트 데이터 test data, test dataset, holdout dataset 훈련이 끝난 모델의 성능 검증에 사용

Traintest.svg

2 같이 보기[ | ]

3 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}