AI 모델 평가에서 편향을 줄이기 위해 사용된다. 평가자는 두 모델의 출력만 보고 어느 쪽이 더 나은지 골라야 하며, 모델 이름이나 회사가 가려져 있다. LMSYS Chatbot Arena, Artificial Analysis 같은 플랫폼이 대표적이다. 2026년 4월에는 알리바바가 비디오 생성 모델 HappyHorse를 Artificial Analysis에 익명으로 등록해 1위를 기록한 뒤 정체를 공개하는 마케팅 전술이 화제가 됐다. 블라인드 평가는 셀프 PR 의혹을 줄이는 장점이 있지만, 평가자 풀의 대표성, 작업 다양성, 평가 지표가 한정될 경우 결과 해석에 주의가 필요하다.
블라인드 평가
aka Blind Evaluation
평가자가 모델 출처(제조사·이름)를 모르는 상태에서 출력물 품질을 비교 평가하는 방식