양자화

aka Quantization

모델의 고정밀 숫자(예: 32비트)를 저정밀(예: 4비트)로 변환하여 메모리와 연산 비용을 줄이는 기법

신경망의 가중치나 활성화 값을 더 적은 비트로 표현하는 압축 기법. FP32에서 INT8이나 INT4로 변환하면 메모리 사용량이 4~8배 줄고 추론 속도도 빨라진다. 정확도 손실을 최소화하는 것이 핵심 과제이며, GPTQ, AWQ, TurboQuant 등 다양한 기법이 연구되고 있다.

관련 용어

2

언급된 포스트

1