오픈소스 프로젝트의 실제 버그 리포트와 해결된 PR을 활용해 만든 벤치마크다. 모델에게 이슈와 관련 리포지토리 코드를 주고, 패치를 생성하게 한 뒤 프로젝트의 테스트가 통과하는지를 평가한다. "Verified" 버전은 사람이 수작업으로 검증해 품질을 높인 서브셋이다. 실무 코딩 능력을 재는 사실상의 표준 테스트로 쓰인다.
SWE-bench
aka SWE-bench
실제 GitHub 이슈와 PR을 기반으로 모델의 소프트웨어 엔지니어링 능력을 평가하는 벤치마크