Google Gemini 3.1 Pro 업데이트, 멀티모달 추론이 한 단계 올라섰다
Google DeepMind가 Gemini 3.1 Pro의 정기 업데이트를 공개했다. 100만 토큰 컨텍스트와 65,000 토큰 출력을 유지하면서, 음성·이미지·영상이 섞인 입력을 더 자연스럽게 다루도록 추론 파이프라인을 손봤다. 출력 속도는 초당 114 토큰, 글로벌 월간 사용자 7억 5천만 명 규모의 Gemini 앱 전 버전에 순차 반영된다. 다만 제시된 벤치마크 점수는 Google 자체 공개 수치가 중심이라, 독립 재현 결과가 쌓이기 전까지는 보통 신뢰도로 보는 편이 안전하다.
이번 업데이트는 대형 신규 출시가 아니라 “기존 모델을 매끄럽게 다듬는” 성격이다. 그래도 읽을 만한 포인트가 몇 가지 있다. 첫째, 멀티모달 이해 벤치마크 MMMU-Pro에서 81%, 영상 이해 Video-MMMU에서 87.6%를 공식 수치로 발표했다. 둘째, 음성 대화 중 말 끊기(voice interruption)와 다언어 전환 처리가 개선됐다. 셋째, 개발자용으로는 Apache 2.0 라이선스의 오픈 웨이트{{open-weights}} 모델 Gemma 4 라인업이 함께 갱신됐다.
xychart-beta
title "Gemini 3.1 Pro 자체 발표 벤치마크 (2026-04 기준)"
x-axis ["MMMU-Pro", "Video-MMMU", "MMLU(이전세대 기준)"]
y-axis "점수(%)" 0 --> 100
bar [81, 87.6, 90.5]
자료: Google Gemini 공식 릴리스 노트, 2026-04
긍정 쪽 해석은 멀티모달 모델{{multimodal-model}}이 이제 벤치마크가 아니라 실제 제품 경험에 녹아드는 단계에 들어섰다는 것이다. 특히 영상·음성 입력을 그대로 받아들이는 모델이 교육·의료·고객지원 사용 사례를 확장하고 있다. 반면 부정적 관점은 Google 자체 발표 수치의 편향 가능성이다. Stanford AI Index 2026은 Anthropic Claude Opus 4.6과 Gemini 3.1 Pro가 어려운 벤치마크에서 비슷한 50%대 수준을 기록한다고 분석해, “Gemini만 독주 중”이라는 인상과 온도차가 있다.
한국 사용자에게 체감 가능한 변화는 Google Workspace·Gemini 앱 한국어 응답 품질과 영상 요약 정확도다. 지켜볼 지점은 (1) 외부 기관 벤치마크가 공식 수치에 얼마나 근접하는지, (2) 긴 컨텍스트 윈도{{context-window}}를 활용한 문서 분석 제품 경쟁에서 Claude·GPT와 어떤 차이를 만들지다.
출처 및 참고 자료
- Gemini Release Notes — Google 공식, 2026-04
함께 보면 좋은 글
- Stanford State of AI Index 2026 — 모델 성능 비교와 벤치마크 해석 맥락