동일한 문제 세트와 평가 기준으로 여러 모델을 비교할 수 있도록 만든 테스트다. 언어 이해(MMLU), 코딩(SWE-bench), 과학 추론(GPQA), 수학(MATH) 등 분야별로 수많은 벤치마크가 존재한다. 단, 모델 업체들이 벤치마크에 특화된 학습을 시키는 사례가 알려지면서 "벤치마크 과적합" 논란도 이어지고 있다.
벤치마크
aka Benchmark
모델의 성능을 공통 기준으로 비교하기 위해 설계된 표준화된 테스트
모델의 성능을 공통 기준으로 비교하기 위해 설계된 표준화된 테스트
동일한 문제 세트와 평가 기준으로 여러 모델을 비교할 수 있도록 만든 테스트다. 언어 이해(MMLU), 코딩(SWE-bench), 과학 추론(GPQA), 수학(MATH) 등 분야별로 수많은 벤치마크가 존재한다. 단, 모델 업체들이 벤치마크에 특화된 학습을 시키는 사례가 알려지면서 "벤치마크 과적합" 논란도 이어지고 있다.