평가/벤치마크 일반

벤치마크

aka Benchmark

모델의 성능을 공통 기준으로 비교하기 위해 설계된 표준화된 테스트

동일한 문제 세트와 평가 기준으로 여러 모델을 비교할 수 있도록 만든 테스트다. 언어 이해(MMLU), 코딩(SWE-bench), 과학 추론(GPQA), 수학(MATH) 등 분야별로 수많은 벤치마크가 존재한다. 단, 모델 업체들이 벤치마크에 특화된 학습을 시키는 사례가 알려지면서 "벤치마크 과적합" 논란도 이어지고 있다.

언급된 포스트

OpenAI, GPT-5.5 공개: Terminal-Bench 2.0 82.7%로 에이전틱 코딩 경쟁 재점화 2026-04-24
GPT-5.4 vs Gemini 3.1 Pro: 인텔리전스 인덱스 57점 동률, 무엇이 갈라놓나 2026-04-14
Stanford AI Index 2026: 미중 격차는 2.7%, 그리고 우리가 미처 몰랐던 숫자들 2026-04-14

관련 용어

언급된 포스트