원래 휴대폰·콘솔에서 운영체제 제약을 우회해 권한을 얻는 행위를 가리키던 단어가 LLM 분야로 옮겨왔다. 모델은 학습·정렬 단계에서 특정 요청(폭력, 자해, CBRN, 차별 등)을 거부하도록 훈련되지만, 역할극·우회적 프롬프트·인코딩 등으로 가드레일을 우회할 수 있다. "유니버설 탈옥"은 단일 프롬프트로 여러 거부 시나리오를 한 번에 통과시키는 강한 탈옥을 뜻한다. AI 안전 평가의 주요 측정 대상이며, OpenAI Bio Bug Bounty(2026-04-28~)도 유니버설 탈옥 발견에 최고 2.5만 달러 보상을 건다.
탈옥
aka Jailbreak
AI 모델의 안전 가드레일을 우회해 평소라면 거부될 출력을 끌어내는 프롬프트 기법