RLHF

aka Reinforcement Learning from Human Feedback

사람의 선호도 평가를 보상 신호로 변환해 LLM을 강화학습으로 미세조정하는 기법

사전학습된 LLM의 출력을 사람이 비교 평가한 데이터로 보상 모델을 먼저 학습시킨 뒤, 그 보상을 신호 삼아 정책(policy) LLM을 강화학습으로 다듬는다. ChatGPT가 대중화되면서 표준 후처리(post-training) 절차로 자리잡았다. 잘못 설계된 보상은 모델이 보상만 노리고 본질을 놓치는 '보상 붕괴(reward collapse)'를 일으키므로, 평가 지표 설계와 보상 모델 품질 관리가 실무의 핵심이다.

관련 용어

1

언급된 포스트

1