충돌 선호 최적화 (C-APO)

aka Conflict-Aware Direct Preference Optimization (C-APO)

사용자의 단기·장기 선호 신호가 충돌할 때 가중치를 자동 조정하는 직접선호최적화(DPO) 변형 기법

SK텔레콤이 2026년 ICLR에 발표한 추천 모델 정렬 기법이다. 기존 직접선호최적화(DPO)는 두 응답·항목 간의 상대 선호 쌍만으로 모델을 정렬하지만, 실제 사용자 데이터에는 단기 클릭과 장기 행동 패턴이 서로 모순되는 경우가 많다. C-APO는 이런 충돌을 명시적으로 식별하여, 단기와 장기가 같은 방향이면 가중치를 높이고 충돌하면 가중치를 낮춰 노이즈를 줄이는 방식으로 모델이 '진짜 선호'를 찾도록 한다.

관련 용어

3

언급된 포스트

1