LLM 정렬 분야에서 RLHF의 복잡성을 줄이기 위해 등장한 기법군이다. 대표 기법인 DPO(Direct Preference Optimization)는 강화학습 단계 없이 두 응답 중 어떤 것이 더 선호되는지 쌍별 비교 데이터만으로 모델 파라미터를 직접 갱신한다. 이후 IPO, KTO, ORPO 등 변형이 잇따라 등장했고, 추천 시스템에도 같은 아이디어가 확장 중이다.
선호 최적화
aka Preference Optimization
보상 모델 없이 사용자의 선호 비교 데이터로 모델 출력을 정렬하는 학습 기법군