평가/벤치마크 중급

암기

aka Memorization

모델이 학습 데이터의 패턴이나 정답을 그대로 외워, 새로운 상황에 일반화하지 못하는 현상

AI 모델은 학습 과정에서 데이터의 통계적 패턴을 익히는데, 이 패턴 학습이 지나치면 훈련 데이터의 특정 입출력 쌍 자체를 외워 버린다. 외운 모델은 학습 데이터와 비슷한 분포의 평가에서는 높은 정확도를 보이지만, 표현이 바뀐 같은 문제·새로운 도메인에서는 급격히 성능이 떨어진다. 인지·추론 능력을 표방한 모델일수록 암기 효과가 결과를 오해하게 만들 위험이 크며, 이를 분리해 측정하기 위해 paraphrase robustness, OOD 평가, 데이터 누출(leakage) 분석 같은 별도 절차가 필요하다.

언급된 포스트

'답은 알지만 질문은 이해 못 했다' — 인간 사고 모방 모델 Centaur, 외부 검증에서 흔들 2026-05-01

관련 용어

언급된 포스트