GPT-5.4, 컴퓨터 사용 능력에서 인간 전문가를 넘다 — OSWorld 75%

GPT-5.4, 컴퓨터 사용 능력에서 인간 전문가를 넘다 — OSWorld 75%

OpenAI의 GPT-5.4가 AI 모델 역사상 처음으로 컴퓨터 사용{{computer-use}} 벤치마크에서 인간 전문가를 넘어섰다. OSWorld{{osworld}}라는 벤치마크에서 75%를 기록했는데, 인간 전문가의 기준선은 72.4%다. 다른 모델 중 이 선을 넘은 것은 아직 없다.

OSWorld는 AI가 실제 컴퓨터 환경에서 마우스 클릭, 키보드 입력, 앱 전환 등을 수행하며 작업을 완료하는 능력을 측정한다. “문서에서 특정 데이터를 찾아 스프레드시트에 옮기고, 차트를 만들어 이메일로 보내라” 같은 복합 작업이 포함된다.

GPT-5.4의 핵심 스펙을 정리하면:

항목수치
OSWorld (컴퓨터 사용)75% (인간 72.4%)
SWE-bench Pro (코딩)57.7%
GDPval (지식 작업)83%
컨텍스트 윈도우1.05M tokens
출시일2026-03-05

출처: NxCode, ALM Corp 보도 종합

일부 세부 정보는 추가 확인이 필요하다. 일부 벤치마크 수치는 티어 3 출처에서만 확인되었으며, OpenAI 공식 블로그의 직접 수치 대조는 제한적이었다.

GPT-5.4는 OpenAI가 처음으로 네이티브 컴퓨터 사용 기능을 탑재한 범용 모델이다. 이전에는 Anthropic의 Claude가 컴퓨터 사용 기능을 먼저 선보였지만, 벤치마크에서 인간 기준선을 넘긴 건 GPT-5.4가 처음이다.

실질적인 의미를 따져보면, 이 기능은 RPA(Robotic Process Automation)와 직접 경쟁하게 된다. 기업에서 단순 반복 업무를 자동화하던 RPA 봇 대신, AI 모델이 화면을 보고 판단하면서 작업을 수행할 수 있게 되는 셈이다. 아직 75%라 완벽하지는 않지만, 정형화된 업무에서는 충분히 실용적인 수준에 도달한 것으로 보인다.


출처 및 참고 자료

함께 보면 좋은 글

해시태그
OpenAIGPT-5.4컴퓨터사용OSWorld벤치마크