신경망의 가중치나 활성화 값을 더 적은 비트로 표현하는 압축 기법. FP32에서 INT8이나 INT4로 변환하면 메모리 사용량이 4~8배 줄고 추론 속도도 빨라진다. 정확도 손실을 최소화하는 것이 핵심 과제이며, GPTQ, AWQ, TurboQuant 등 다양한 기법이 연구되고 있다.
양자화
aka Quantization
모델의 고정밀 숫자(예: 32비트)를 저정밀(예: 4비트)로 변환하여 메모리와 연산 비용을 줄이는 기법
모델의 고정밀 숫자(예: 32비트)를 저정밀(예: 4비트)로 변환하여 메모리와 연산 비용을 줄이는 기법
신경망의 가중치나 활성화 값을 더 적은 비트로 표현하는 압축 기법. FP32에서 INT8이나 INT4로 변환하면 메모리 사용량이 4~8배 줄고 추론 속도도 빨라진다. 정확도 손실을 최소화하는 것이 핵심 과제이며, GPTQ, AWQ, TurboQuant 등 다양한 기법이 연구되고 있다.