멀티모달 모델

aka Multimodal Model

텍스트, 이미지, 음성 등 여러 형태의 입력을 동시에 이해하고 생성할 수 있는 AI 모델

기존 모델이 텍스트만 처리했다면, 멀티모달 모델은 이미지를 보고 설명하거나, 음성을 듣고 텍스트로 변환하는 등 여러 모달리티를 통합 처리한다. GPT-4o, Gemini, Claude 등 최신 모델들이 멀티모달을 지원하며, 텍스트-이미지-음성-비디오를 아우르는 통합 모델이 추세다.

관련 용어

2

언급된 포스트

13