LLM.int8() 양자화

1 개요[ | ]

양자화 절차: LLM.int8()는 두 부분의 양자화 절차를 사용한다.
- 벡터별 양자화: 대부분의 특성을 각 내적에 대한 별도의 정규화 상수를 사용하여 정규화하고 양자화한다.
- 혼합 정밀도 분해: 이상치 특성을 위해 새로운 혼합 정밀도 분해 방식을 적용하여 이상치 특성 차원을 16비트 매트릭스 곱셈으로 분리하고, 99.9% 이상의 값을 8비트로 곱한다.
메모리 및 성능 효율성: LLM.int8() 방법을 적용하면 추론에 필요한 메모리를 절반으로 줄일 수 있으며, 대규모 트랜스포머에 특히 효과적이다.
실증적 검증: 이 기술은 다양한 대규모 언어 모델에서 테스트되었으며, 기존의 고비트 표현에 비해 성능이 떨어지지 않음을 입증했다.
대규모 모델의접근성: LLM.int8()을 사용하면 큰 언어 모델을 사용자 GPU에서 사용할 수 있게 되어, 더 넓은 범위의 애플리케이션에서 활용할 수 있다.
벤치마킹 성능: LLM.int8()를 사용한 일반적인 벤치마크는 정확도나 성능에서 유의미한 저하가 없음을 보여준다.