MoE 구조는 수백~수천 개의 전문가(expert) 네트워크와 게이팅(gating) 메커니즘으로 구성됨. 입력 토큰에 따라 소수의 전문가만 활성화되므로, 전체 파라미터 수는 크지만 실제 연산량은 적다. Google의 Switch Transformer, Mixtral 등이 대표적.
혼합 전문가 모델
aka Mixture of Experts (MoE)
여러 개의 전문화된 하위 네트워크 중 입력에 따라 일부만 활성화하여 효율성을 높이는 모델 구조
관련 용어
2언급된 포스트
5- DeepSeek V4 프리뷰 공개: 1.6T MoE에 1M 토큰 컨텍스트, 가격은 GPT-5.5의 1/6 2026-04-25
- Google Gemma 4 출시 — 31B 오픈 모델이 400B급을 이기는 시대 2026-04-17
- Meta, 오픈소스 버리고 독점 모델 Muse Spark 출시 — Llama 시대의 끝? 2026-04-17
- DeepSeek V4가 Huawei Ascend 950PR 위에서 돈다, 중국 자립 모델 스택의 실증 2026-04-15
- Google Gemma 4 출시 — Apache 2.0 라이선스로 오픈 AI의 판을 바꾸다 2026-04-07