AI 서비스의 운영 비용 중 가장 큰 비중을 차지하는 요소다. 모델 학습은 한 번이지만, 추론은 사용자 요청마다 반복되므로 서비스 규모가 커질수록 추론 비용이 기하급수적으로 증가한다. 토큰 수, 모델 크기, 컨텍스트 길이에 비례하며, 양자화, 배칭, 모델 경량화 등으로 최적화한다.
추론 비용
aka Inference Cost
AI 모델이 입력을 받아 출력을 생성하는 추론 과정에서 발생하는 연산 비용
AI 모델이 입력을 받아 출력을 생성하는 추론 과정에서 발생하는 연산 비용
AI 서비스의 운영 비용 중 가장 큰 비중을 차지하는 요소다. 모델 학습은 한 번이지만, 추론은 사용자 요청마다 반복되므로 서비스 규모가 커질수록 추론 비용이 기하급수적으로 증가한다. 토큰 수, 모델 크기, 컨텍스트 길이에 비례하며, 양자화, 배칭, 모델 경량화 등으로 최적화한다.