"어텐션"의 두 판 사이의 차이

6번째 줄: 6번째 줄:
* 인간의 주의집중을 모방하여 중요한 입력 부분을 다시 참고하는 머신러닝 기법
* 인간의 주의집중을 모방하여 중요한 입력 부분을 다시 참고하는 머신러닝 기법
* [[트랜스포머]]에 사용된다.  
* [[트랜스포머]]에 사용된다.  
* 점곱 주의집중(dot-product attention)과 멀티헤드 주의집중(multi-head attention) 기법이 많이 사용된다.
* 입력 데이터 중 일부의 효과를 증강시키며, 다른 일부를 감소시킨다.
* 입력 데이터 중 일부의 효과를 증강시키며, 다른 일부를 감소시킨다.
* 데이터 중 비중이 적지만 중요한 데이터에 더 집중하게 한다.
* 데이터 중 비중이 적지만 중요한 데이터에 더 집중하게 한다.
* 데이터 중 어느 부분을 학습하는 것이 다른 부분을 학습하는 것보다 더 중요한지는 문맥에 따라 결정되며, 이는 경사하강법으로 학습된다.
* 데이터 중 어느 부분을 학습하는 것이 다른 부분을 학습하는 것보다 더 중요한지는 문맥에 따라 결정되며, 이는 경사하강법으로 학습된다.
* 점곱 주의집중(dot-product attention)과 멀티헤드 주의집중(multi-head attention) 기법이 많이 사용된다.
* scaled dot-product attention


[[File:Attention-qkv.png|800px]]
[[File:Attention-qkv.png|800px]]

2024년 1월 24일 (수) 10:18 판

1 개요

attention
注意, 注意集中
주의, 주의집중, 어텐션, 어텐션 메커니즘, 주의 메커니즘
  • 신경망에서 "주의"를 모방하여 고안된 기술
  • 인간의 주의집중을 모방하여 중요한 입력 부분을 다시 참고하는 머신러닝 기법
  • 트랜스포머에 사용된다.
  • 입력 데이터 중 일부의 효과를 증강시키며, 다른 일부를 감소시킨다.
  • 데이터 중 비중이 적지만 중요한 데이터에 더 집중하게 한다.
  • 데이터 중 어느 부분을 학습하는 것이 다른 부분을 학습하는 것보다 더 중요한지는 문맥에 따라 결정되며, 이는 경사하강법으로 학습된다.
  • 점곱 주의집중(dot-product attention)과 멀티헤드 주의집중(multi-head attention) 기법이 많이 사용된다.
  • scaled dot-product attention

Attention-qkv.png

2 같이 보기

3 참고

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}