GPT-5.4 vs Gemini 3.1 Pro: 인텔리전스 인덱스 57점 동률, 무엇이 갈라놓나

GPT-5.4 vs Gemini 3.1 Pro: 인텔리전스 인덱스 57점 동률, 무엇이 갈라놓나

일부 세부 정보는 추가 확인이 필요하다. 2026년 4월 현재 Artificial Analysis Intelligence Index에서 OpenAI GPT-5.4와 Google Gemini 3.1 Pro가 57점 동률로 공동 1위다. 305개 모델이 올라와 있는 리더보드에서 두 모델이 나란히 정상에 있다는 건, 2025년 말까지 벌어져 있던 성능 간극이 실무 기준에서 사실상 사라졌다는 뜻이다.

흥미로운 지점은 ‘어디서 이기느냐’가 갈린다는 것이다.

지표별 승자가 다르다

xychart-beta
  title "주요 벤치마크 비교 (2026-04 리포트 기준, 단위 %)"
  x-axis ["SWE-bench", "GPQA Diamond", "AIME 평균", "ARC-AGI-2"]
  y-axis "점수" 0 --> 100
  bar [78.8, 94.3, 90.0, 77.1]
  line [72.0, 92.0, 99.0, 45.0]

자료: Gemini 3.1 Pro 수치(막대) BuildFastWithAI 2026-04, GPT-5.4 수치(선) MindStudio·PricePerToken 2026-04. 측정 시점과 프롬프팅 조건이 보고서마다 달라 절대값에는 ±1~2%p 편차가 있을 수 있음.

  • Gemini 3.1 Pro는 SWE-bench Verified{{swe-bench}}·GPQA Diamond{{gpqa-diamond}}·ARC-AGI-2{{arc-agi}} 같은 복합 추론에서 1~5%p 차이로 앞선다.
  • GPT-5.4는 수학과 코드 특화 과제에서 강하다. AIME 2023–2025에서 99점, USAMO 2026 95.2점, Frontier Math 47.6점을 기록했다는 보도가 있다.

단, PricePerToken 기준 2026-04-11 GPQA 리더보드에서는 GPT-5.4가 92.0%로 1위이고 Gemini 3 Pro Preview가 90.8%에 위치한다. 리더보드마다 측정 방식과 시점이 달라 서로 다른 ‘승자’가 나오는 점은 주의해야 한다.

왜 이렇게 팽팽해졌나

배경은 세 가지로 정리된다.

첫째, 컨텍스트 윈도우{{context-window}}가 충분히 넓어져서 경량 엔지니어링 트릭으로 격차를 벌리기 어려워졌다. GPT-5.4는 1.05M 토큰, Gemini 3.1 Pro는 2M 토큰급으로 보도됐다. 모델 자체의 추론 질이 점수를 좌우하는 비중이 커졌다.

둘째, 벤치마크{{benchmark}}의 포화가 왔다. SWE-bench Verified가 1년 만에 60%대에서 100% 근접으로 올라왔는데, 이는 Stanford 2026 AI Index도 언급한 패턴이다. 위쪽 헤드룸이 좁아지면서 1~2점 차이로 순위가 뒤집힌다.

셋째, Anthropic의 Claude Mythos가 비공개로 상단을 차지했다. 보도에 따르면 SWE-bench Verified 93.9%, GPQA Diamond 94.6%로 현재까지 알려진 어떤 상용 모델보다 높지만, Project Glasswing 하에서 50개 조직으로만 제한 공개되고 있다. 공개 벤치마크 2위 싸움이 곧 ‘실질 1위’ 싸움이 되고 있다.

긍정론 — “이용자에게는 좋은 소식”

양강 구도가 팽팽하면 이용자 선택지가 넓어진다. OpenAI 생태계(코드·에이전트·IDE 통합)와 Google 생태계(Workspace·Android·검색) 중 어느 쪽이 업무 환경에 잘 맞는지가 결정 기준이 되고, 단일 모델 독주가 없는 만큼 가격 협상력도 커진다. 기업 입장에서는 “Gemini에 얹은 업무에는 Gemini, 코드·수학에는 GPT-5.4”처럼 과제별 분기가 가능해진다.

부정론 — “벤치마크 포화의 시대가 왔다”

비판 입장에서는 “현재 벤치마크는 변별력이 거의 바닥났다”고 본다. AI Index 2026도 “최상위 모델일수록 가장 불투명하다”고 지적했다. 데이터셋 오염 의혹, 벤치마크 맞춤 튜닝 등 구조적 문제가 남아 있으며, 1~2점 차이의 의미를 실사용 품질로 바로 연결짓는 건 무리라는 지적이다.

앞으로 지켜볼 지점

단기(수주)에는 OpenAI가 GPT-5.4의 에이전트 확장 기능, Gemini가 3.1 Ultra의 정식 공개 여부로 격차를 벌릴지가 관전 포인트다. 중장기(수개월)에는 Anthropic이 Mythos를 상업 출시할지, 안 할지가 이 구도를 한 번 더 흔들 가능성이 크다.

한국 개발자 입장에서는 “벤치마크 1위”라는 마케팅 문구보다 실제 업무 파이프라인(코드 리뷰, 문서 요약, 다국어 지원 등) 기준의 평가셋을 자체적으로 만드는 편이 훨씬 유용한 시점이다.


출처 및 참고 자료

함께 보면 좋은 글

해시태그
GPT-5.4Gemini-3.1-ProClaude-Mythos벤치마크Artificial-Analysis