기울기 소실 문제

1 개요[ | ]

vanishing gradient problem
기울기 소실 문제, 그래디언트 소멸 문제
  • 확률적 경사하강법역전파로 인공신경망을 훈련할 때 기울기값이 사라지는 문제
  • 은닉층이 많아지면 출력층에서 계산된 기울기가 역전파되다가 값이 점점 작아져서 0이 되는 문제
  • 특정 활성화 함수를 사용하는 계층이 신경망에 많이 추가되면 손실함수의 기울기가 0에 가까워지며 학습이 되지 않는 현상
  • 머신러닝에서 기울기 기반 학습방법 및 역전파로 인공신경망을 훈련할 때 기울기 소실 문제가 발생한다.
  • 각 신경망의 가중치는 각 훈련 반복(iteration)에서 현재 가중치에 대한 오차 함수의 편미분에 비례하여 갱신된다.
  • 문제는, 경우에 따라 기울기가 사라지고 가중치 값 변경이 극도로 제한될 수 있다는 것이다. 최악의 경우, 신경망에서의 추가적인 훈련이 완전히 중단될 수 있다.
  • 한 예로서, 쌍곡 탄젠트 함수와 같은 전통적인 활성화 함수는 (0, 1) 범위의 기울기를 가지며 역전파는 체인 규칙에 따라 기울기를 계산한다.
  • 이것은 n-계층 네트워크에서 초기 계층의 기울기를 계산하기 위해 이러한 작은 숫자 n을 곱하는 효과가 있다.
  • 즉, 초기 계층이 매우 느리게 훈련되는 동안, 기울기(오류 신호)는 n과 함께 기하급수적으로 감소한다.
  • 역전파를 통해 연구자들은 지도 심층신경망을 처음부터 훈련할 수 있었지만 처음에는 거의 성공하지 못했다.
  • 1991년 Hochreiter의 학위논문에서 다층 피드포워드 네트워크뿐만 아니라 반복 네트워크에도 영향을 미치는 "기울기 소실 문제"의 원인이 공식적으로 확인되었다.
  • 후자는 매우 깊은 피드포워드 네트워크로 전개하여 훈련되며, 네트워크에 의해 처리되는 입력 시퀀스의 각 시간 단계에 대해 새 계층이 생성된다.
(전파와 역전파의 조합을 시간에 따른 역전파라고 한다.)
  • 더 큰 값을 유도하는 활성화 함수를 사용하면 기울기 폭주 문제가 발생할 위험이 있다.

2 해결방법[ | ]

Study9 ReLU.png

Study9 costfunction.png

3 같이 보기[ | ]

4 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}