벤치마크

aka Benchmark

모델의 성능을 공통 기준으로 비교하기 위해 설계된 표준화된 테스트

동일한 문제 세트와 평가 기준으로 여러 모델을 비교할 수 있도록 만든 테스트다. 언어 이해(MMLU), 코딩(SWE-bench), 과학 추론(GPQA), 수학(MATH) 등 분야별로 수많은 벤치마크가 존재한다. 단, 모델 업체들이 벤치마크에 특화된 학습을 시키는 사례가 알려지면서 "벤치마크 과적합" 논란도 이어지고 있다.

관련 용어

2

언급된 포스트

3