추론 강도

aka Reasoning Effort

동일 모델에서 응답에 사용할 추론 단계 수·연산량을 요청 단위로 조절하는 파라미터

LLM 응답을 빠른 직답(짧은 사고)과 길고 신중한 분석(긴 사고)으로 구분해 호출자가 선택할 수 있게 하는 옵션이다. OpenAI의 o-시리즈와 GPT-5에서 처음 보편화됐고, 2026년 들어 Anthropic Claude의 'Extended Thinking', Mistral Medium 3.5의 reasoning_effort 등 다른 모델들도 비슷한 인터페이스를 제공한다. 가벼운 챗봇 응답에는 낮은 강도, 복잡한 코딩·수학·에이전틱 실행에는 높은 강도를 지정해 같은 모델 한 벌로 비용·지연·품질을 동적으로 트레이드오프할 수 있다.

관련 용어

3

언급된 포스트

1