Attention is All You Need

1 개요[ | ]

Attention is All You Need
어텐션이 필요한 전부이다

주요 시퀀스 변환 모델은 인코더-디코더 구성의 복잡한 순환 또는 컨벌루션 신경망을 기반으로 한다. 최고 성능의 모델은 어텐션 메커니즘을 통해 인코더와 디코더도 연결한다. 우리는 반복과 컨볼루션을 완전히 없애고 어텐션 메커니즘에만 기반한 새로운 간단한 네트워크 아키텍처인 Transformer를 제안한다. 두 가지 기계 번역 작업에 대한 실험에서는 이러한 모델이 품질면에서 우수하면서도 병렬화가 더 용이하고 학습에 소요되는 시간이 훨씬 적은 것으로 나타났다. 우리 모델은 WMT 2014 영어-독일어 번역 작업에서 28.4 BLEU를 달성하여 앙상블을 포함하여 기존 최고 결과보다 2 BLEU 이상 향상되었다. WMT 2014 영어-프랑스어 번역 작업에서 우리 모델은 8개의 GPU에서 3.5일 동안 훈련한 후 새로운 단일 모델 최첨단 BLEU 점수 41.8을 설정했다. 이는 최고 수준의 훈련 비용의 작은 부분이다. 문헌의 모델. 우리는 Transformer가 크고 제한된 훈련 데이터를 사용하여 영어 선거구 구문 분석에 성공적으로 적용함으로써 다른 작업에 잘 일반화된다는 것을 보여준다.

2 같이 보기[ | ]

3 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}