추론 비용

aka Inference Cost

AI 모델이 입력을 받아 출력을 생성하는 추론 과정에서 발생하는 연산 비용

AI 서비스의 운영 비용 중 가장 큰 비중을 차지하는 요소다. 모델 학습은 한 번이지만, 추론은 사용자 요청마다 반복되므로 서비스 규모가 커질수록 추론 비용이 기하급수적으로 증가한다. 토큰 수, 모델 크기, 컨텍스트 길이에 비례하며, 양자화, 배칭, 모델 경량화 등으로 최적화한다.

관련 용어

2

언급된 포스트

2