모델 증류

aka Model Distillation

대형 모델(교사)의 지식을 소형 모델(학생)에 전이하여 작지만 성능 좋은 모델을 만드는 기법

교사 모델의 출력 확률 분포를 학습 신호로 사용하여 학생 모델을 훈련한다. 원본 데이터만으로 학습하는 것보다 효과적으로 지식을 전달할 수 있다. 최근에는 경쟁사 모델의 API 출력을 대량 수집하여 자체 모델 학습에 무단 사용하는 '적대적 증류'가 업계 이슈가 되고 있다.

관련 용어

2

언급된 포스트

4