LLM 학습 데이터의 규모가 커지면서, 인터넷에 공개된 벤치마크(MMLU, GSM8K, HumanEval 등)의 문제와 정답이 학습 코퍼스에 포함될 가능성이 높아졌다. 모델이 평가에서 정답을 '맞히는' 게 아니라 '본 적이 있는' 경우가 늘어나면, 벤치마크 점수는 모델의 진짜 능력을 반영하지 못하게 된다. 이를 방지하기 위한 방법으로는 비공개 평가셋 운영, 시간순 분할 평가(temporal split), 데이터셋 멤버십 추론 검사, paraphrase robustness 평가 등이 쓰인다.
벤치마크 오염
aka Benchmark Contamination
모델 학습 데이터에 평가용 벤치마크 문제·정답이 포함되어 평가 결과가 부풀려지는 현상