바이트 페어 인코딩

1 개요[ | ]

byte pair encoding (BPE), digram coding
바이트 페어 인코딩, 바이트 짝 인코딩, 다이그램 인코딩, 디그램 인코딩
  • 데이터 압축법의 하나
  • 가역 압축으로 분류된다.
  • 일반적인 압축법과 비교해 압축속도가 극단적으로 느리다는 결점은 있지만, 해제속도는 매우 빠르다.
  • 해제 루틴을 매우 작게 만드는 것이 가능하다는 특징이 있다.
  • 이러한 특징 때문에 성능이 낮은 컴퓨터용 게임 소프트웨어의 데이터 압축 등에 이용되는 경우가 많다.
  • 이 기법이 자연어 처리 분야에 적용되며 유용한 결과를 보였다. (OpenAIGPT, GPT-2, GPT-3)

2 원리[ | ]

출현빈도가 높은 2바이트를, 사용하지 않은 1바이트로 교체하는 일을 반복하여 압축한다.

ABCDCDABCDE 출현빈도가 높은 CD 페어를, 사용하지 않은 Z로, 그 다음 빈도인 AB 페어를, Y로 교체한다.
YZZYZE 출현빈도가 높은 YZ(ZZ도 가능) 페어를, 사용하지 않은 X로 교체한다.
XZXZE 출현빈도가 높은 XZ 페어를, 사용하지 않은 W로 교체한다.
WWE WW 페어는 하나 밖에 없으므로 종료

여기에 대응표를 추가하여 파일로 출력한다.

3 같이 보기[ | ]

4 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}