Google Gemini 3.1 Flash-Lite — 1M 토큰, 0.25달러, 2.5배 빠른 가성비 모델

Google Gemini 3.1 Flash-Lite — 1M 토큰, 0.25달러, 2.5배 빠른 가성비 모델

API 비용이 걱정되는 개발자라면 주목할 모델이 나왔다. Google의 Gemini 3.1 Flash-Lite는 입력 토큰 100만 개당 0.25달러, 출력은 1.50달러다. Gemini 3.1 Pro의 1/8 가격이면서, 응답 속도는 이전 세대(Gemini 2.5 Flash) 대비 2.5배 빠르다.

“저렴하면 성능도 낮겠지”라고 생각할 수 있지만, 벤치마크 수치를 보면 그렇지도 않다. GPQA Diamond에서 86.9%, MMMU Pro에서 76.8%를 기록했고, Arena.ai 리더보드에서 Elo 1432점으로 같은 가격대 모델들을 압도한다.

항목Gemini 3.1 Flash-Lite
입력 가격$0.25/M tokens
출력 가격$1.50/M tokens
컨텍스트 윈도우{{context-window}}1M tokens
TTFA 속도2.5 Flash 대비 2.5배
입력 모달리티텍스트, 이미지, 오디오, 비디오
GPQA Diamond86.9%

출처: Google 공식 블로그, VentureBeat

특히 눈에 띄는 기능은 생각 예산{{thinking-budget}}(Thinking Budget) 조절이다. 추론 수준을 minimal, low, medium, high 중에서 선택할 수 있어서, 간단한 작업에는 빠르게, 복잡한 작업에는 깊이 있게 응답하도록 조정할 수 있다. 이건 비용 최적화에도 직결된다.

대상 사용 시나리오는 번역, 콘텐츠 모더레이션, 데이터 추출, UI 생성 같은 대량 처리 작업이다. 멀티모달(텍스트, 이미지, 오디오, 비디오) 입력을 모두 지원하면서 100만 토큰 컨텍스트 윈도우를 제공하니, 긴 문서나 영상 분석 워크플로우에도 적합하다.

한국 스타트업이나 중소 개발팀에게는 API 비용이 서비스 수익성을 좌우하는 핵심 변수다. Flash-Lite 수준의 가격과 성능이 보편화되면, AI 기반 서비스의 진입 장벽이 한 단계 더 낮아질 수 있다.


출처 및 참고 자료

함께 보면 좋은 글

해시태그
GoogleGeminiFlash-LiteAPI가성비모델