선호 최적화

aka Preference Optimization

보상 모델 없이 사용자의 선호 비교 데이터로 모델 출력을 정렬하는 학습 기법군

LLM 정렬 분야에서 RLHF의 복잡성을 줄이기 위해 등장한 기법군이다. 대표 기법인 DPO(Direct Preference Optimization)는 강화학습 단계 없이 두 응답 중 어떤 것이 더 선호되는지 쌍별 비교 데이터만으로 모델 파라미터를 직접 갱신한다. 이후 IPO, KTO, ORPO 등 변형이 잇따라 등장했고, 추천 시스템에도 같은 아이디어가 확장 중이다.

관련 용어

3

언급된 포스트

1