VLA 모델

aka Visual-Language-Action Model

시각 정보와 언어 지시를 받아 물리적 행동으로 변환하는 로보틱스 AI 모델

대형 언어 모델(LLM)의 능력을 로보틱스로 확장한 모델이다. 카메라 영상(시각), 자연어 명령(언어)을 입력으로 받아, 로봇 팔 움직임 같은 실제 물리적 행동(액션)을 출력한다. Google RT-2, OpenVLA 등이 대표적이며, 범용 로봇 제어를 위한 핵심 기술로 주목받고 있다. 다만 에너지 소비가 크다는 한계가 있어 뉴로-심볼릭 접근법 등 효율화 연구가 활발하다.

관련 용어

2

언급된 포스트

5