GPQA Diamond

aka GPQA Diamond

전문가도 풀기 어려운 대학원급 과학 문제로 모델 추론 능력을 평가하는 고난도 벤치마크

물리·화학·생물학의 대학원 수준 문제 수백 개로 구성된 GPQA의 하위 세트다. "Diamond"는 GPQA 중에서도 난이도가 가장 높고 품질이 철저히 검증된 문제만 모은 부분이다. 단순한 암기가 아니라 여러 단계의 과학적 추론을 요구하기 때문에, 프런티어 모델들의 상한 성능을 비교할 때 자주 쓰인다.

관련 용어

2

언급된 포스트

2