GPT-5.4 vs Gemini 3.1 Pro: 인텔리전스 인덱스 57점 동률, 무엇이 갈라놓나
일부 세부 정보는 추가 확인이 필요하다. 2026년 4월 현재 Artificial Analysis Intelligence Index에서 OpenAI GPT-5.4와 Google Gemini 3.1 Pro가 57점 동률로 공동 1위다. 305개 모델이 올라와 있는 리더보드에서 두 모델이 나란히 정상에 있다는 건, 2025년 말까지 벌어져 있던 성능 간극이 실무 기준에서 사실상 사라졌다는 뜻이다.
흥미로운 지점은 ‘어디서 이기느냐’가 갈린다는 것이다.
지표별 승자가 다르다
xychart-beta
title "주요 벤치마크 비교 (2026-04 리포트 기준, 단위 %)"
x-axis ["SWE-bench", "GPQA Diamond", "AIME 평균", "ARC-AGI-2"]
y-axis "점수" 0 --> 100
bar [78.8, 94.3, 90.0, 77.1]
line [72.0, 92.0, 99.0, 45.0]
자료: Gemini 3.1 Pro 수치(막대) BuildFastWithAI 2026-04, GPT-5.4 수치(선) MindStudio·PricePerToken 2026-04. 측정 시점과 프롬프팅 조건이 보고서마다 달라 절대값에는 ±1~2%p 편차가 있을 수 있음.
- Gemini 3.1 Pro는
SWE-bench Verified{{swe-bench}}·GPQA Diamond{{gpqa-diamond}}·ARC-AGI-2{{arc-agi}} 같은 복합 추론에서 1~5%p 차이로 앞선다. - GPT-5.4는 수학과 코드 특화 과제에서 강하다. AIME 2023–2025에서 99점, USAMO 2026 95.2점, Frontier Math 47.6점을 기록했다는 보도가 있다.
단, PricePerToken 기준 2026-04-11 GPQA 리더보드에서는 GPT-5.4가 92.0%로 1위이고 Gemini 3 Pro Preview가 90.8%에 위치한다. 리더보드마다 측정 방식과 시점이 달라 서로 다른 ‘승자’가 나오는 점은 주의해야 한다.
왜 이렇게 팽팽해졌나
배경은 세 가지로 정리된다.
첫째, 컨텍스트 윈도우{{context-window}}가 충분히 넓어져서 경량 엔지니어링 트릭으로 격차를 벌리기 어려워졌다. GPT-5.4는 1.05M 토큰, Gemini 3.1 Pro는 2M 토큰급으로 보도됐다. 모델 자체의 추론 질이 점수를 좌우하는 비중이 커졌다.
둘째, 벤치마크{{benchmark}}의 포화가 왔다. SWE-bench Verified가 1년 만에 60%대에서 100% 근접으로 올라왔는데, 이는 Stanford 2026 AI Index도 언급한 패턴이다. 위쪽 헤드룸이 좁아지면서 1~2점 차이로 순위가 뒤집힌다.
셋째, Anthropic의 Claude Mythos가 비공개로 상단을 차지했다. 보도에 따르면 SWE-bench Verified 93.9%, GPQA Diamond 94.6%로 현재까지 알려진 어떤 상용 모델보다 높지만, Project Glasswing 하에서 50개 조직으로만 제한 공개되고 있다. 공개 벤치마크 2위 싸움이 곧 ‘실질 1위’ 싸움이 되고 있다.
긍정론 — “이용자에게는 좋은 소식”
양강 구도가 팽팽하면 이용자 선택지가 넓어진다. OpenAI 생태계(코드·에이전트·IDE 통합)와 Google 생태계(Workspace·Android·검색) 중 어느 쪽이 업무 환경에 잘 맞는지가 결정 기준이 되고, 단일 모델 독주가 없는 만큼 가격 협상력도 커진다. 기업 입장에서는 “Gemini에 얹은 업무에는 Gemini, 코드·수학에는 GPT-5.4”처럼 과제별 분기가 가능해진다.
부정론 — “벤치마크 포화의 시대가 왔다”
비판 입장에서는 “현재 벤치마크는 변별력이 거의 바닥났다”고 본다. AI Index 2026도 “최상위 모델일수록 가장 불투명하다”고 지적했다. 데이터셋 오염 의혹, 벤치마크 맞춤 튜닝 등 구조적 문제가 남아 있으며, 1~2점 차이의 의미를 실사용 품질로 바로 연결짓는 건 무리라는 지적이다.
앞으로 지켜볼 지점
단기(수주)에는 OpenAI가 GPT-5.4의 에이전트 확장 기능, Gemini가 3.1 Ultra의 정식 공개 여부로 격차를 벌릴지가 관전 포인트다. 중장기(수개월)에는 Anthropic이 Mythos를 상업 출시할지, 안 할지가 이 구도를 한 번 더 흔들 가능성이 크다.
한국 개발자 입장에서는 “벤치마크 1위”라는 마케팅 문구보다 실제 업무 파이프라인(코드 리뷰, 문서 요약, 다국어 지원 등) 기준의 평가셋을 자체적으로 만드는 편이 훨씬 유용한 시점이다.
출처 및 참고 자료
- GPT-5.4 vs Gemini 3.1 Pro Preview 공식 비교 — Artificial Analysis, 2026-04
- Best AI Models April 2026 — BuildFastWithAI, 2026-04
- GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro 벤치마크 — MindStudio, 2026-04
- GPQA Leaderboard 2026 — PricePerToken, 2026-04-11
함께 보면 좋은 글
- Gemini 3.1 Pro vs GPT‑5.4 상세 비교 — 기능/가격 보조 참고
- Gemini Hits 750M Users + 3.1 Pro Launch — Gemini 3.1 Pro 출시 당시 사용자 지표