Mistral, 128B 단일 모델 ‘Medium 3.5’ 공개 — 코딩 에이전트는 클라우드로 이주
Mistral이 5월 2일 두 가지를 동시에 내놨다. 하나는 새 플래그십 Mistral Medium 3.5, 다른 하나는 코딩 에이전트 Vibe의 클라우드 실행 모드인 ‘Remote Agents’다. 메시지는 분명하다 — 같은 모델 한 벌로 잡담부터 장기 에이전틱 작업까지 처리하고, 코딩 작업은 더 이상 노트북이 켜져 있지 않아도 돌아간다는 것이다.
무엇이 바뀌었나
Medium 3.5는 128B 파라미터 dense 모델이고, 256K 컨텍스트를 지원한다. MoE가 아닌 dense 구조라는 점, 그리고 채팅·추론·코딩을 하나의 가중치 안에 묶었다는 점이 특이한 선택이다. 한 모델이 가벼운 답변과 긴 호흡의 에이전틱 실행을 동시에 처리할 수 있도록 reasoning_effort를 API 요청 단위로 조절하는 옵션이 함께 제공된다.
벤치마크는 코딩 쪽이 핵심이다. SWE-Bench Verified에서 77.6%를 기록했다고 Mistral은 밝혔다. MarkTechPost는 같은 발표를 정리하면서 “Devstral 2와 Qwen 3.5 397B A17B를 앞섰다”고 적었다.
| 모델 | 파라미터 (dense / 활성) | 컨텍스트 | SWE-Bench Verified |
|---|---|---|---|
| Mistral Medium 3.5 | 128B (dense) | 256K | 77.6% |
| Qwen 3.5 397B A17B | 397B / 17B (MoE 활성) | — | Medium 3.5보다 낮음(수치 비공개) |
| Devstral 2 | — | — | Medium 3.5보다 낮음(수치 비공개) |
자료: Mistral 공식 블로그(2026-05-02), MarkTechPost(2026-05-02). Devstral 2와 Qwen의 정확한 수치는 Mistral의 비교 차트에서만 제시되어 별도 출처를 함께 보지 않는 한 단정할 수 없다.
Vibe 쪽 변화는 워크플로우에 더 직접적으로 와닿는다. 이제 Vibe 세션을 CLI나 Le Chat에서 띄워 클라우드의 격리 샌드박스에서 비동기로 실행할 수 있고, 로컬에서 진행 중이던 세션을 상태 손실 없이 클라우드로 ‘텔레포트’할 수 있다. GitHub(코드·PR), Linear·Jira(이슈), Sentry(인시던트), Slack·Teams(알림) 등 통상의 개발 도구와 통합된다.
왜 지금 이런 그림인가
지난 1년간 코딩 에이전트 시장은 두 갈래로 갈라져 있었다. 한쪽은 IDE에 붙는 인라인 도우미(GitHub Copilot 계열), 다른 한쪽은 자율적으로 작업을 받아 실행하는 백그라운드 러너다. Mistral의 이번 발표는 후자에 무게를 실은 결정으로 읽힌다 — 사용자가 자리를 비워도 Vibe가 PR을 만들고, 다른 도구로 결과를 보고하는 흐름이다.
또 하나의 맥락은 dense vs MoE 논쟁이다. 최근 1년간 대형 모델은 MoE가 사실상 표준처럼 됐는데, Mistral은 일부러 dense 128B를 택했다. 운영 단순성과 추론 지연 일관성을 노린 결정으로 보인다.
긍정적인 시각
엔터프라이즈 도입 관점에서, “한 모델 한 벌로 채팅·추론·코딩을 다 한다”는 메시지는 운영 부담을 줄인다. 모델별로 라우팅 규칙을 두지 않아도 되고, 비용 예측이 단순해진다. The Decoder는 이 점을 두고 “운영의 단순성을 무기로 삼은 통합 플래그십”이라고 평가했다.
오픈 웨이트 제공도 중요한 신호다. MarkTechPost는 Medium 3.5가 Hugging Face에 오픈 웨이트로 공개됐다고 보도했다. 같은 체급의 폐쇄 모델이 압도하는 시장에서, 자체 인프라에 올려 쓰고 싶은 기업·연구자에겐 의미 있는 선택지가 추가된 셈이다.
부정적인 시각·우려
벤치마크 비교에는 조심할 부분이 있다. Mistral이 발표한 차트는 자신들이 강점을 보이는 SWE-Bench Verified를 전면에 내세우지만, 같은 점수를 다른 환경(다른 평가 하니스, 다른 시드)에서 재현했을 때 같은 등수가 나올지는 별도 검증이 필요하다. 외부 평가자(Independent Benchmark)가 같은 결과를 내기 전까진 “공개된 수치”로만 받아들이는 것이 안전하다.
또한 Vibe Remote Agents는 강력한 만큼 권한 위임 위험도 함께 커진다. PR을 직접 만들고, Jira 티켓을 닫고, Slack에 보고를 올리는 작업을 모두 에이전트가 한다는 것은, 잘못된 명령 하나가 여러 시스템을 동시에 흔들 수 있다는 뜻이다. Mistral은 민감한 행동에 명시적 승인을 요구한다고 밝혔지만, 실제 사고 사례가 쌓이기 전엔 운영 체계를 별도로 마련해두는 편이 합리적이다.
앞으로 지켜볼 지점
단기적으로는 두 가지를 본다. 첫째, Hugging Face에 올라온 오픈 웨이트가 라이선스상 어떤 상업적 사용을 허용하는지 — 이건 Medium 3.5를 자체 인프라에 올리려는 기업의 결정에 직결된다. 둘째, Vibe의 Remote Agents가 실제 워크플로우(특히 멀티 리포 PR, 장시간 데이터 마이그레이션)에서 얼마나 안정적으로 돌아가는지에 대한 외부 사용자 보고다.
중장기로는, dense 128B 노선이 MoE 추세에 균열을 낼 수 있을지가 관건이다. 운영 단순성이 진짜 비용 우위로 이어지는지는 1~2분기 사용 데이터가 쌓여야 판단할 수 있다.
출처 및 참고 자료
- Remote agents in Vibe. Powered by Mistral Medium 3.5. — Mistral AI, 2026-05-02
- Mistral AI Launches Remote Agents in Vibe and Mistral Medium 3.5 with 77.6% SWE-Bench Verified Score — MarkTechPost, 2026-05-02
- Mistral Medium 3.5 Folds Chat, Reasoning, and Code Into One 128B AI Model — Winbuzzer, 2026-05-02
- Mistral’s new flagship Medium 3.5 folds chat, reasoning, and code into one model — The Decoder, 2026-05-02