GPT-5.4, 컴퓨터 사용 능력에서 인간 전문가를 넘다 — OSWorld 75%
OpenAI의 GPT-5.4가 AI 모델 역사상 처음으로 컴퓨터 사용{{computer-use}} 벤치마크에서 인간 전문가를 넘어섰다. OSWorld{{osworld}}라는 벤치마크에서 75%를 기록했는데, 인간 전문가의 기준선은 72.4%다. 다른 모델 중 이 선을 넘은 것은 아직 없다.
OSWorld는 AI가 실제 컴퓨터 환경에서 마우스 클릭, 키보드 입력, 앱 전환 등을 수행하며 작업을 완료하는 능력을 측정한다. “문서에서 특정 데이터를 찾아 스프레드시트에 옮기고, 차트를 만들어 이메일로 보내라” 같은 복합 작업이 포함된다.
GPT-5.4의 핵심 스펙을 정리하면:
| 항목 | 수치 |
|---|---|
| OSWorld (컴퓨터 사용) | 75% (인간 72.4%) |
| SWE-bench Pro (코딩) | 57.7% |
| GDPval (지식 작업) | 83% |
| 컨텍스트 윈도우 | 1.05M tokens |
| 출시일 | 2026-03-05 |
출처: NxCode, ALM Corp 보도 종합
일부 세부 정보는 추가 확인이 필요하다. 일부 벤치마크 수치는 티어 3 출처에서만 확인되었으며, OpenAI 공식 블로그의 직접 수치 대조는 제한적이었다.
GPT-5.4는 OpenAI가 처음으로 네이티브 컴퓨터 사용 기능을 탑재한 범용 모델이다. 이전에는 Anthropic의 Claude가 컴퓨터 사용 기능을 먼저 선보였지만, 벤치마크에서 인간 기준선을 넘긴 건 GPT-5.4가 처음이다.
실질적인 의미를 따져보면, 이 기능은 RPA(Robotic Process Automation)와 직접 경쟁하게 된다. 기업에서 단순 반복 업무를 자동화하던 RPA 봇 대신, AI 모델이 화면을 보고 판단하면서 작업을 수행할 수 있게 되는 셈이다. 아직 75%라 완벽하지는 않지만, 정형화된 업무에서는 충분히 실용적인 수준에 도달한 것으로 보인다.
출처 및 참고 자료
- GPT 5.4 Complete Guide 2026: Features, Pricing, Benchmarks — NxCode, 2026-03-05
- OpenAI GPT-5.4: Features, Benchmarks, Pricing & Computer Use — ALM Corp, 2026-03-05
함께 보면 좋은 글
- OpenAI Release Notes - April 2026 — OpenAI 4월 업데이트 릴리스 노트
- AI Models in April 2026: Every Major Release — 4월 주요 AI 모델 출시 현황