LLM.int8() 양자화

1 개요[ | ]

LLM.int8()
  • 트랜스포머를 위한 8비트 매트릭스 곱셈 기술
  • 특히 대규모 언어 모델(LLM)에 적용되어 메모리 사용량을 크게 줄이면서 정밀도를 유지한다.
  • 추론에 필요한 메모리를 절반으로 줄이면서 전체 정밀도 성능을 유지하는 데 중점을 둔다.

2 특징[ | ]

  • 양자화 절차: LLM.int8()는 두 부분의 양자화 절차를 사용한다.
    • 벡터별 양자화: 대부분의 특성을 각 내적에 대한 별도의 정규화 상수를 사용하여 정규화하고 양자화한다.
    • 혼합 정밀도 분해: 이상치 특성을 위해 새로운 혼합 정밀도 분해 방식을 적용하여 이상치 특성 차원을 16비트 매트릭스 곱셈으로 분리하고, 99.9% 이상의 값을 8비트로 곱한다.
  • 메모리 및 성능 효율성: LLM.int8() 방법을 적용하면 추론에 필요한 메모리를 절반으로 줄일 수 있으며, 대규모 트랜스포머에 특히 효과적이다.
  • 실증적 검증: 이 기술은 다양한 대규모 언어 모델에서 테스트되었으며, 기존의 고비트 표현에 비해 성능이 떨어지지 않음을 입증했다.
  • 대규모 모델의접근성: LLM.int8()을 사용하면 큰 언어 모델을 사용자 GPU에서 사용할 수 있게 되어, 더 넓은 범위의 애플리케이션에서 활용할 수 있다.
  • 벤치마킹 성능: LLM.int8()를 사용한 일반적인 벤치마크는 정확도나 성능에서 유의미한 저하가 없음을 보여준다.

3 같이 보기[ | ]

4 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}