어텐션 메커니즘에서 이미 계산된 Key와 Value 벡터를 캐싱하여, 새 토큰 생성 시 이전 토큰을 다시 계산하지 않는 최적화 기법. 컨텍스트가 길어질수록 메모리 사용량이 비례 증가하여, 양자화나 압축의 주요 타겟이 된다.
KV 캐시
aka KV Cache
트랜스포머 모델이 이전 토큰의 키-밸류 쌍을 저장해두는 메모리 구조
트랜스포머 모델이 이전 토큰의 키-밸류 쌍을 저장해두는 메모리 구조
어텐션 메커니즘에서 이미 계산된 Key와 Value 벡터를 캐싱하여, 새 토큰 생성 시 이전 토큰을 다시 계산하지 않는 최적화 기법. 컨텍스트가 길어질수록 메모리 사용량이 비례 증가하여, 양자화나 압축의 주요 타겟이 된다.