탈옥

aka Jailbreak

AI 모델의 안전 가드레일을 우회해 평소라면 거부될 출력을 끌어내는 프롬프트 기법

원래 휴대폰·콘솔에서 운영체제 제약을 우회해 권한을 얻는 행위를 가리키던 단어가 LLM 분야로 옮겨왔다. 모델은 학습·정렬 단계에서 특정 요청(폭력, 자해, CBRN, 차별 등)을 거부하도록 훈련되지만, 역할극·우회적 프롬프트·인코딩 등으로 가드레일을 우회할 수 있다. "유니버설 탈옥"은 단일 프롬프트로 여러 거부 시나리오를 한 번에 통과시키는 강한 탈옥을 뜻한다. AI 안전 평가의 주요 측정 대상이며, OpenAI Bio Bug Bounty(2026-04-28~)도 유니버설 탈옥 발견에 최고 2.5만 달러 보상을 건다.

관련 용어

2

언급된 포스트

1