모델 아키텍처 기술심화

혼합 전문가 모델

aka Mixture of Experts (MoE)

여러 개의 전문화된 하위 네트워크 중 입력에 따라 일부만 활성화하여 효율성을 높이는 모델 구조

MoE 구조는 수백~수천 개의 전문가(expert) 네트워크와 게이팅(gating) 메커니즘으로 구성됨. 입력 토큰에 따라 소수의 전문가만 활성화되므로, 전체 파라미터 수는 크지만 실제 연산량은 적다. Google의 Switch Transformer, Mixtral 등이 대표적.

언급된 포스트

DeepSeek V4 프리뷰 공개: 1.6T MoE에 1M 토큰 컨텍스트, 가격은 GPT-5.5의 1/6 2026-04-25
Google Gemma 4 출시 — 31B 오픈 모델이 400B급을 이기는 시대 2026-04-17
Meta, 오픈소스 버리고 독점 모델 Muse Spark 출시 — Llama 시대의 끝? 2026-04-17
DeepSeek V4가 Huawei Ascend 950PR 위에서 돈다, 중국 자립 모델 스택의 실증 2026-04-15
Google Gemma 4 출시 — Apache 2.0 라이선스로 오픈 AI의 판을 바꾸다 2026-04-07

관련 용어

언급된 포스트