블라인드 평가

aka Blind Evaluation

평가자가 모델 출처(제조사·이름)를 모르는 상태에서 출력물 품질을 비교 평가하는 방식

AI 모델 평가에서 편향을 줄이기 위해 사용된다. 평가자는 두 모델의 출력만 보고 어느 쪽이 더 나은지 골라야 하며, 모델 이름이나 회사가 가려져 있다. LMSYS Chatbot Arena, Artificial Analysis 같은 플랫폼이 대표적이다. 2026년 4월에는 알리바바가 비디오 생성 모델 HappyHorse를 Artificial Analysis에 익명으로 등록해 1위를 기록한 뒤 정체를 공개하는 마케팅 전술이 화제가 됐다. 블라인드 평가는 셀프 PR 의혹을 줄이는 장점이 있지만, 평가자 풀의 대표성, 작업 다양성, 평가 지표가 한정될 경우 결과 해석에 주의가 필요하다.

관련 용어

1

언급된 포스트

1