원래 군사·사이버 보안 분야 용어로, 적의 입장에서 방어 시스템을 공격해 약점을 찾는 팀을 의미한다. AI 안전 분야에서는 모델이 위험한 출력(편견, 폭력, CBRN 정보, 개인정보 유출 등)을 생성하도록 유도하는 프롬프트를 만들어 시스템 가드레일을 시험한다. OpenAI, Anthropic, Google DeepMind 등은 외부 레드팀을 모델 출시 전에 운영해왔으며, 2026년 4월 OpenAI는 바이오 안전에 한정한 'Bio Bug Bounty' 형태로 외부 레드팀 보상 프로그램을 정식 출범시켰다.
레드팀
aka Red Team
시스템의 취약점·실패 모드를 의도적으로 찾아내려는 적대적 평가자 집단