트랜스포머 (머신러닝)

(트랜스포머 (머신러닝 모델)에서 넘어옴)
  다른 뜻에 대해서는 트랜스포머(transformer) 문서를 참조하십시오.
  다른 뜻에 대해서는 트랜스포머 (머신러닝) 문서를 참조하십시오.
  다른 뜻에 대해서는 트랜스포머 (영화) 문서를 참조하십시오.

1 개요[ | ]

transformer
트랜스포머, 변환기
  • 어텐션 메커니즘을 활용하는 딥 러닝 모형
  • 주로 자연어 처리(NLP) 분야에서 사용한다.
  • 셀프 어텐션(self-attention) 기법을 사용하여 학습 속도를 빠르게 하고 메모리 문제를 해결한 인코더-디코더(encoder-decoder) 모델
  • RNN(Recurrent Neural Network)과 마찬가지로 Transformer는 기계번역, 텍스트 요약 등의 작업을 위해 자연어처럼 순서가 지정된 데이터 시퀀스를 처리하도록 설계되었다.
  • 그러나 RNN과는 달리 시퀀스를 순서대로 처리하지 않아도 된다.
  • 해당 데이터가 자연어인 경우 Transformer는 문장을 처리하기 전에 문장의 시작 부분을 처리할 필요가 없다. 따라서 Transformer는 훈련 중에 RNN보다 훨씬 많은 병렬 처리가 가능하다.
  • 트랜스포머가 도입된 이후 NLP에서는 아키텍처의 기본 구성 블록이 되어, LSTM(long short-term memory)과 같은 게이트형 반복 신경망 모델을 대체하는 경우가 많다.
  • Transformer 아키텍처는 훈련 연산 중 더 많은 병렬처리를 하게 하기 때문에 예전보다 훨씬 많은 데이터 훈련이 가능하게 되었다.
  • 이에 따라 BERT, GPT 같은 사전-훈련 시스템이 개발되었다.
  • 릴리스 전에 대량의 일반 언어 데이터로 훈련하여, 특정 언어 작업에 대해 파인튜닝 훈련을 할 수 있다.

  • 어떻게 여러 항목을 인코딩할 것인가?
  • 어떻게 장기 의존성을 인코딩할 것인가?
  • 어떻게 시퀀스 정보를 인코딩할 것인가?
  • 어떻게 빠르게 인코딩할 것인가?
  • 어떻게 단순한 인코더-디코더 아키텍처를 만들 것인가?

2 타임라인[ | ]

  • 2014년 Bahdanau 등은 두 개의 LSTM 네트워크 사이에 "추가(additive)" 종류의 주의 메커니즘을 사용하여 이전 seq2seq 모델을 개선했다.
  • 2015년 Luong 등은 글로벌 및 로컬(창) 어텐션 모델 아키텍처의 상대적 성능을 평가했다. 이 아키텍처는 Bahdanau 아키텍처가 제공한 번역을 개선하는 동시에 로컬 어텐션 아키텍처를 사용하여 번역 시간을 단축한 것으로 나타났다.

3 같이 보기[ | ]

4 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}