"어텐션"의 두 판 사이의 차이

 
(같은 사용자의 중간 판 10개는 보이지 않습니다)
10번째 줄: 10번째 줄:
* 데이터 중 어느 부분을 학습하는 것이 다른 부분을 학습하는 것보다 더 중요한지는 문맥에 따라 결정되며, 이는 경사하강법으로 학습된다.
* 데이터 중 어느 부분을 학습하는 것이 다른 부분을 학습하는 것보다 더 중요한지는 문맥에 따라 결정되며, 이는 경사하강법으로 학습된다.
* 점곱 주의집중(dot-product attention)과 멀티헤드 주의집중(multi-head attention) 기법이 많이 사용된다.
* 점곱 주의집중(dot-product attention)과 멀티헤드 주의집중(multi-head attention) 기법이 많이 사용된다.
* 글로벌(global), 선택적(selective), 동적(dynamic) 시퀀스 요약(블렌딩)
* scaled dot-product attention
[[File:Attention-qkv.png|800px]]


==같이 보기==
==같이 보기==
{{z컬럼3|
* [[seq2seq]]
* [[seq2seq]]
* [[QKV 패턴]]
* [[트랜스포머 (머신러닝 모델)]]
* [[트랜스포머 (머신러닝 모델)]]
* [[Attention is All You Need]]
* [[Attention is All You Need]]
* [[셀프 어텐션]]
* [[점곱 어텐션]]
* [[크로스 어텐션]]
* [[멀티헤드 어텐션]]
* [[스케일된 점곱 어텐션]]
}}


==참고==
==참고==
26번째 줄: 38번째 줄:
* {{리브레위키}}
* {{리브레위키}}


[[분류: 어텐션]]
[[분류: 머신러닝]]
[[분류: 머신러닝]]
[[분류: 인공신경망]]
[[분류: 인공신경망]]

2024년 1월 24일 (수) 13:39 기준 최신판

1 개요[ | ]

attention
注意, 注意集中
주의, 주의집중, 어텐션, 어텐션 메커니즘, 주의 메커니즘
  • 신경망에서 "주의"를 모방하여 고안된 기술
  • 인간의 주의집중을 모방하여 중요한 입력 부분을 다시 참고하는 머신러닝 기법
  • 트랜스포머에 사용된다.
  • 입력 데이터 중 일부의 효과를 증강시키며, 다른 일부를 감소시킨다.
  • 데이터 중 비중이 적지만 중요한 데이터에 더 집중하게 한다.
  • 데이터 중 어느 부분을 학습하는 것이 다른 부분을 학습하는 것보다 더 중요한지는 문맥에 따라 결정되며, 이는 경사하강법으로 학습된다.
  • 점곱 주의집중(dot-product attention)과 멀티헤드 주의집중(multi-head attention) 기법이 많이 사용된다.
  • 글로벌(global), 선택적(selective), 동적(dynamic) 시퀀스 요약(블렌딩)
  • scaled dot-product attention

Attention-qkv.png

2 같이 보기[ | ]

3 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}