AI 모델이 사진·그림·도표 같은 이미지를 입력받아 그 내용을 설명하는 자연어 문장을 생성하는 기술이다. 초기에는 CNN+RNN 조합으로 구현됐으나, 현재는 멀티모달 트랜스포머(예: CLIP 기반 VLM, GPT-4o, Gemini 2.5, Claude 3.5 Sonnet 등)가 주류다. 시각장애인 접근성, 검색 엔진의 이미지 인덱싱, 자동 콘텐츠 모더레이션, 전자상거래 상품 설명 자동 생성 등에 활용된다. 핵심 과제는 환각(hallucination) 최소화와 도메인 특화 정확도(예: 음식·의료· 공장 현장 이미지)다.
이미지 캡셔닝
aka Image Captioning
이미지를 자연어 설명 문장으로 변환하는 AI 기술