모델 아키텍처 기술심화

VLA 모델

aka Visual-Language-Action Model

시각 정보와 언어 지시를 받아 물리적 행동으로 변환하는 로보틱스 AI 모델

대형 언어 모델(LLM)의 능력을 로보틱스로 확장한 모델이다. 카메라 영상(시각), 자연어 명령(언어)을 입력으로 받아, 로봇 팔 움직임 같은 실제 물리적 행동(액션)을 출력한다. Google RT-2, OpenVLA 등이 대표적이며, 범용 로봇 제어를 위한 핵심 기술로 주목받고 있다. 다만 에너지 소비가 크다는 한계가 있어 뉴로-심볼릭 접근법 등 효율화 연구가 활발하다.

언급된 포스트

X Square Robot, 가정용 로봇 파운데이션 모델 Wall-B 공개: '35일 내 가정 배치' 2026-04-24
AI 전력 소비 100배 줄이면서 정확도는 올린다 — 뉴로-심볼릭 AI의 반격 2026-04-17
NVIDIA Isaac GR00T N1.7 상용 라이선스 조기 접근 - 휴머노이드 로봇 상용화 구간에 들어간다 2026-04-16
일본이 내건 '2040년 피지컬 AI 시장 30%' 목표, 로봇이 공장을 넘어 인프라로 2026-04-15
AI 에너지 100배 절감? 뉴로-심볼릭 AI가 제시하는 새로운 방향 2026-04-12

관련 용어

언급된 포스트