Microsoft, 자체 AI 모델 3종 공개 — OpenAI 의존에서 벗어나는 신호탄

Microsoft, 자체 AI 모델 3종 공개 — OpenAI 의존에서 벗어나는 신호탄

Microsoft가 자체 ‘MAI’ 브랜드로 파운데이션 모델{{foundation-model}} 3종을 공개했다. MAI-Transcribe-1(음성인식), MAI-Voice-1(음성생성), MAI-Image-2(이미지생성)다. OpenAI에 수십억 달러를 투자한 회사가 왜 자체 모델을 만들까?

세 모델이 뭘 하는가?

MAI-Transcribe-1은 음성을 텍스트로 변환하는 STT(Speech-to-Text) 모델이다. 25개 주요 언어를 지원하며, 기존 Azure Fast 대비 배치 처리 속도가 2.5배 빠르다. FLEURS 벤치마크에서 OpenAI의 Whisper-large-V3, Google의 Gemini 3.1 Flash-Lite를 모두 능가했다. 기존 대비 GPU 비용도 약 50% 절감된다고 Microsoft는 밝혔다.

MAI-Voice-1은 반대 방향이다. 텍스트를 음성으로 바꾸는 TTS(Text-to-Speech) 모델로, 단일 GPU에서 1초 만에 60초 분량의 자연스러운 음성을 생성한다. 몇 초 분량의 음성 샘플만으로 커스텀 보이스를 만들 수 있다는 점이 특징이다.

MAI-Image-2는 텍스트-이미지 생성 모델로, Arena.ai 리더보드에서 이미지 모델 패밀리 3위로 데뷔했다.

OpenAI와의 관계는?

VentureBeat는 이를 “OpenAI와 Google에 대한 직접적인 공격”이라고 표현했다. Microsoft는 OpenAI의 최대 투자자이면서도, 동시에 자체 AI 역량을 키우고 있다. 이미 MAI-Transcribe-1은 Copilot의 음성 모드와 Teams 회의 전사 기능에 테스트 적용 중이다.

GeekWire는 이를 “OpenAI 너머로의 확장”이라고 분석했다. 핵심 LLM은 OpenAI에 의존하되, 음성·이미지 같은 멀티모달{{multimodal-model}} 영역에서는 자체 모델로 비용과 의존도를 낮추겠다는 전략으로 읽힌다.

개발자에게 의미하는 것

세 모델 모두 Microsoft Foundry를 통해 즉시 사용 가능하며, MAI Playground에서 직접 테스트해볼 수도 있다. Azure 기반 서비스를 개발하는 팀이라면, 특히 음성 처리 파이프라인에서 비용 절감 효과를 기대할 수 있다.

한국어가 25개 지원 언어에 포함되는지는 아직 명확하지 않다. 다만 Microsoft가 한국 시장에서 Azure를 적극 확장하고 있는 점을 고려하면, 한국어 지원은 시간문제일 가능성이 높다.

해시태그
MicrosoftMAI음성인식TTS이미지생성Azure