학습률

(학습 속도에서 넘어옴)

1 개요[ | ]

learning rate, step size
학습률, 학습 속도, 러닝 레이트, 스텝 사이즈, 보폭
  • 머신러닝에서 각 학습 단계별로 움직이는 정도(크기)
  • 경사하강법을 통해 모델을 학습시키는 데 사용되는 스칼라값
  • 각 반복에서 경사하강법 알고리즘은 학습률을 경사에 곱한다.
  • 이 곱셈의 결과를 경사 스텝이라고 한다.
  • 학습률은 핵심적인 하이퍼파라미터이다.

  • 특히 SGD(확률적 경사 하강)와 같은 최적화 알고리즘에서 중요한 하이퍼파라미터로, 훈련 과정 중에 최적화 알고리즘이 취하는 단계의 크기를 결정한다.
  • 신중하게 선택된 학습률은 효율적인 수렴과 최적의 모델 성능을 달성하는 데 중요하다.
  • 훈련 중인 머신러닝 모델의 수렴 속도와 안정성에 영향을 미친다.
  • 너무 작은 학습률은 수렴이 느리게 될 수 있거나 지역 최소값에 갇힐 수 있다.
  • 반면에 너무 큰 학습률은 모델이 최소값을 넘어서 수렴하지 못할 수 있다.
  • SGD와 같은 기울기 기반 최적화 알고리즘에서 학습률은 모델 파라미터의 기울기에 적용되는 스케일링 요소이다.
  • 파라미터(가중치와 편향)의 업데이트 규칙은 다음과 같다.
새 파라미터 = 이전 파라미터 - 학습률 × 기울기

2 적절한 학습률 선택[ | ]

적절한 학습률 선택은 대개 경험적인 과정이며, 여러 가지 전략이 있다.

  • 그리드 탐색: 여러 학습률을 시도하고 검증 세트에서 성능을 평가합니다.
  • 학습률 스케줄러
    • 스텝 감쇠(step decay): 훈련 중에 미리 정의된 단계 또는 에포크에서 학습률을 감소시킨다.
    • 웜업(warmup): 훈련 시작 시 학습률을 작은 값에서 원하는 값으로 서서히 증가시킨다.
    • 주기적 학습률(cyclic): 훈련 주기 동안 높은 학습률과 낮은 학습률을 번갈아가며 사용한다.
  • 시각화: 다양한 학습률에 대해 시간에 따른 훈련 손실을 그래프로 그려 적절한 값을 찾을 수 있다.

3 같이 보기[ | ]

4 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}