기존 모델이 텍스트만 처리했다면, 멀티모달 모델은 이미지를 보고 설명하거나, 음성을 듣고 텍스트로 변환하는 등 여러 모달리티를 통합 처리한다. GPT-4o, Gemini, Claude 등 최신 모델들이 멀티모달을 지원하며, 텍스트-이미지-음성-비디오를 아우르는 통합 모델이 추세다.
멀티모달 모델
aka Multimodal Model
텍스트, 이미지, 음성 등 여러 형태의 입력을 동시에 이해하고 생성할 수 있는 AI 모델
관련 용어
2언급된 포스트
13- OpenAI, 'ChatGPT Images 2.0' 공개 — 2K 해상도·글자 정확도 99%에 '생각하는' 모드 추가 2026-04-22
- 구글, 'Gemini for Home'에 자연 대화 기능 추가 — 'Hey Google' 없이도 후속 질문 가능 2026-04-22
- Gemini in Chrome 한국 상륙 — 네이버는 'AI 탭'으로 응수, 국내 검색 판이 흔들린다 2026-04-22
- 엔비디아, 서울서 'Nemotron Developer Days' 개막 — 국내 AI 개발자 생태계에 오픈소스 모델 전면 공개 2026-04-21
- MIT Tech Review, EmTech AI 현장서 '지금 AI에서 중요한 10가지' 공개 — 프런티어 모델·AI 에이전트 경제가 상단 2026-04-21
- 배달의민족, AI가 음식 사진 읽어준다 — 시각장애인 접근성 기능 4.5/5점 받고 정식 도입 2026-04-20
- Meta, 오픈소스 버리고 독점 모델 Muse Spark 출시 — Llama 시대의 끝? 2026-04-17
- Google Gemini 3.1 Pro 업데이트, 멀티모달 추론이 한 단계 올라섰다 2026-04-15
- Mistral Small 4, 추론·코딩·멀티모달을 한 모델에 묶었다 2026-04-15
- Meta, Muse Spark 공개 — Alexandr Wang 체제 첫 AI 모델의 실력은? 2026-04-12
- Meta, 새 AI 모델 'Muse Spark' 공개 — Llama 시대를 넘어 새 판을 짜다 2026-04-10
- Meta, 'Muse Spark' 모델 공개 — AI 전략 전면 재편의 시작 2026-04-09
- Microsoft, 자체 AI 모델 3종 공개 — OpenAI 의존에서 벗어나는 신호탄 2026-04-08