사전학습된 LLM의 출력을 사람이 비교 평가한 데이터로 보상 모델을 먼저 학습시킨 뒤, 그 보상을 신호 삼아 정책(policy) LLM을 강화학습으로 다듬는다. ChatGPT가 대중화되면서 표준 후처리(post-training) 절차로 자리잡았다. 잘못 설계된 보상은 모델이 보상만 노리고 본질을 놓치는 '보상 붕괴(reward collapse)'를 일으키므로, 평가 지표 설계와 보상 모델 품질 관리가 실무의 핵심이다.
RLHF
aka Reinforcement Learning from Human Feedback
사람의 선호도 평가를 보상 신호로 변환해 LLM을 강화학습으로 미세조정하는 기법