AI 안전 평가

aka AI Safety Evaluation

AI 모델이 위험한 능력·행동을 보이는지 체계적으로 측정·검증하는 절차

프론티어 모델의 출시 전후 위험을 측정하는 절차다. 평가 영역은 보통 CBRN(화학·생물·방사능·핵), 사이버 공격 보조, 모델 자율성, 사회적 편향, 자기 복제·자가 개선 능력 등을 포함한다. OpenAI Preparedness Framework, Anthropic Responsible Scaling Policy, Google DeepMind Frontier Safety Framework가 대표적인 자체 평가 체계이며, 영국 AISI·미국 AISI 같은 정부 기관도 독립 평가를 수행한다. 2026년 4월 OpenAI는 외부 레드팀에 금전 보상을 거는 Bio Bug Bounty로 평가 절차를 정기·외부 모델로 확장했다.

관련 용어

3

언급된 포스트

1