Google Gemini 3.1 Flash-Lite — 1M 토큰, 0.25달러, 2.5배 빠른 가성비 모델
API 비용이 걱정되는 개발자라면 주목할 모델이 나왔다. Google의 Gemini 3.1 Flash-Lite는 입력 토큰 100만 개당 0.25달러, 출력은 1.50달러다. Gemini 3.1 Pro의 1/8 가격이면서, 응답 속도는 이전 세대(Gemini 2.5 Flash) 대비 2.5배 빠르다.
“저렴하면 성능도 낮겠지”라고 생각할 수 있지만, 벤치마크 수치를 보면 그렇지도 않다. GPQA Diamond에서 86.9%, MMMU Pro에서 76.8%를 기록했고, Arena.ai 리더보드에서 Elo 1432점으로 같은 가격대 모델들을 압도한다.
| 항목 | Gemini 3.1 Flash-Lite |
|---|---|
| 입력 가격 | $0.25/M tokens |
| 출력 가격 | $1.50/M tokens |
컨텍스트 윈도우{{context-window}} | 1M tokens |
| TTFA 속도 | 2.5 Flash 대비 2.5배 |
| 입력 모달리티 | 텍스트, 이미지, 오디오, 비디오 |
| GPQA Diamond | 86.9% |
출처: Google 공식 블로그, VentureBeat
특히 눈에 띄는 기능은 생각 예산{{thinking-budget}}(Thinking Budget) 조절이다. 추론 수준을 minimal, low, medium, high 중에서 선택할 수 있어서, 간단한 작업에는 빠르게, 복잡한 작업에는 깊이 있게 응답하도록 조정할 수 있다. 이건 비용 최적화에도 직결된다.
대상 사용 시나리오는 번역, 콘텐츠 모더레이션, 데이터 추출, UI 생성 같은 대량 처리 작업이다. 멀티모달(텍스트, 이미지, 오디오, 비디오) 입력을 모두 지원하면서 100만 토큰 컨텍스트 윈도우를 제공하니, 긴 문서나 영상 분석 워크플로우에도 적합하다.
한국 스타트업이나 중소 개발팀에게는 API 비용이 서비스 수익성을 좌우하는 핵심 변수다. Flash-Lite 수준의 가격과 성능이 보편화되면, AI 기반 서비스의 진입 장벽이 한 단계 더 낮아질 수 있다.
출처 및 참고 자료
- Gemini 3.1 Flash Lite: Our most cost-effective AI model yet — Google, 2026-03-03
- Google releases Gemini 3.1 Flash Lite at 1/8th the cost of Pro — VentureBeat, 2026-03-03
- Google launches speedy Gemini 3.1 Flash-Lite model in preview — SiliconANGLE, 2026-03-03
함께 보면 좋은 글
- Gemini 3.1 Pro: A smarter model for your most complex tasks — 같은 시리즈의 Pro 모델과 비교
- Gemini 3.1 Flash Lite Benchmarks — 벤치마크 점수 및 타 모델 비교