혼합 전문가 모델

aka Mixture of Experts (MoE)

여러 개의 전문화된 하위 네트워크 중 입력에 따라 일부만 활성화하여 효율성을 높이는 모델 구조

MoE 구조는 수백~수천 개의 전문가(expert) 네트워크와 게이팅(gating) 메커니즘으로 구성됨. 입력 토큰에 따라 소수의 전문가만 활성화되므로, 전체 파라미터 수는 크지만 실제 연산량은 적다. Google의 Switch Transformer, Mixtral 등이 대표적.

관련 용어

2

언급된 포스트

5