모델출시 중급 2026-04-24

OpenAI, GPT-5.5 공개: Terminal-Bench 2.0 82.7%로 에이전틱 코딩 경쟁 재점화

OpenAI, GPT-5.5 공개: Terminal-Bench 2.0 82.7%로 에이전틱 코딩 경쟁 재점화

OpenAI가 2026년 4월 23일 GPT-5.5를 공개했다. Terminal-Bench 2.0에서 82.7%, GDPval에서 84.9%를 기록하며 에이전틱 AI 코딩 영역을 정조준한 모델이다.

발표의 핵심

GPT-5.5는 GPT-4.5 이후 OpenAI가 처음으로 베이스 모델을 완전 재훈련한 세대 전환 버전이다. 공식 블로그에 따르면 이번 모델은 “여러 도구 사이를 스스로 오가며 여러 단계에 걸친 컴퓨터 작업을 완수하는” 것을 설계 목표로 삼았다. 단일 질문에 답하는 챗봇보다 한 단계 위, 긴 워크플로우를 끝까지 끌고 가는 파운데이션 모델을 지향한다는 뜻이다.

벤치마크 수치는 아래와 같다.

항목GPT-5.5 점수출처
Terminal-Bench 2.082.7%OpenAI 공식 블로그
GDPval84.9%OpenAI 공식 블로그
API 입력 가격$5 / 1M 토큰OpenAI
API 출력 가격$30 / 1M 토큰OpenAI

출처: OpenAI 공식 블로그 2026-04-23, Decrypt 2026-04-23.

롤아웃은 ChatGPT의 Plus, Pro, Business, Enterprise 사용자와 Codex 환경으로 순차 진행된다. 무료 사용자의 전환 일정은 공식 발표에 포함되지 않았다.

왜 이 시점인가

이번 달 경쟁 상대는 명확하다. Anthropic의 Claude Mythos Preview가 3월 말 유출 사태 이후 보안 전문 프로그램 형태로 공개됐고, Google은 4월 22일 Cloud Next 2026에서 에이전트 빌더 묶음을 내놨다. VentureBeat는 GPT-5.5의 Terminal-Bench 2.0 수치가 Mythos Preview를 “근소한 차이로” 앞섰다고 분석했다. 세 회사가 같은 주에 에이전트 구도를 놓고 정면 충돌한 셈이다.

긍정적 시각

개발자 생산성 관점의 평가가 우호적이다. MarkTechPost는 “지속적 사고와 도구 간 전환이 필요한 작업에서 재훈련된 베이스 모델 특유의 안정성이 드러난다”고 평했다. 기업 도입 관점에서도 Codex와 ChatGPT Business·Enterprise 동시 지원은 이미 OpenAI 생태계에 들어온 조직이 별도 통합 작업 없이 성능을 끌어올릴 수 있다는 의미가 크다.

부정적 시각

토큰 과금 구조가 부담 요인이다. Decrypt는 “입력 $5 / 출력 $30은 GPT-5.4 대비 약 2배”라며 “에이전트가 여러 단계로 토큰을 태우는 구조를 감안하면 실사용 비용이 빠르게 늘어날 수 있다”고 짚었다. 또한 Terminal-Bench 2.0은 출시된 지 얼마 되지 않은 신규 벤치마크여서, 재현성과 과적합 여부는 독립 검증을 더 지켜봐야 한다는 주장도 있다.

앞으로 지켜볼 점

단기(수 주~수개월)로는 ① 실사용자 환경에서 긴 워크플로우가 82.7% 수치에 걸맞게 재현되는지, ② Codex 사용자의 토큰 소모량이 실제로 얼마나 늘어나는지가 관전 포인트다. 중기적으로는 Anthropic이 Mythos Preview의 정식 버전을 공개할지, 그리고 Google의 에이전트 빌더가 기업 시장에서 어느 정도 점유율을 확보할지가 이 경쟁의 흐름을 결정할 가능성이 있다.


출처 및 참고 자료

함께 보면 좋은 글

이 글에 나오는 용어
해시태그