평가/벤치마크 기술심화

OSWorld

aka OSWorld

AI 모델의 실제 컴퓨터 환경 조작 능력을 측정하는 벤치마크

AI 에이전트가 실제 운영체제 환경에서 마우스, 키보드, 앱 전환 등을 활용해 복잡한 작업을 완료할 수 있는지 평가하는 벤치마크다. 단순 텍스트 생성이 아닌, 문서 편집, 데이터 처리, 이메일 발송 등 실무 수준의 컴퓨터 작업 능력을 측정한다. 인간 전문가 기준선은 72.4%이며, GPT-5.4가 75%로 처음 이를 넘었다.

언급된 포스트

GPT-5.4, 컴퓨터 사용 능력에서 인간 전문가를 넘다 — OSWorld 75% 2026-04-17

관련 용어

언급된 포스트