AI 기술 일반

이미지 캡셔닝

aka Image Captioning

이미지를 자연어 설명 문장으로 변환하는 AI 기술

AI 모델이 사진·그림·도표 같은 이미지를 입력받아 그 내용을 설명하는 자연어 문장을 생성하는 기술이다. 초기에는 CNN+RNN 조합으로 구현됐으나, 현재는 멀티모달 트랜스포머(예: CLIP 기반 VLM, GPT-4o, Gemini 2.5, Claude 3.5 Sonnet 등)가 주류다. 시각장애인 접근성, 검색 엔진의 이미지 인덱싱, 자동 콘텐츠 모더레이션, 전자상거래 상품 설명 자동 생성 등에 활용된다. 핵심 과제는 환각(hallucination) 최소화와 도메인 특화 정확도(예: 음식·의료· 공장 현장 이미지)다.

언급된 포스트

Apple, iOS 27 AI 사진 편집 'Extend·Enhance' 보도 — WWDC 2026 공개 앞두고 사양 윤곽 새어 나와 2026-04-29
배달의민족, AI가 음식 사진 읽어준다 — 시각장애인 접근성 기능 4.5/5점 받고 정식 도입 2026-04-20

관련 용어

언급된 포스트