본문 바로가기

AI

Vision Language Action (VLA) 모델

🤖 Vision Language Action (VLA) 모델 개요 및 주요 사례 정리

AI와 로보틱스의 융합은 최근 눈부신 발전을 이루고 있으며, 그 중심에는 Vision-Language-Action (VLA) 모델이 있습니다. 이 글에서는 VLA 모델의 개념부터, 대표 모델들인 SayCan, PaLM-E, RT-1, RT-2, OpenVLA까지 간단하게 정리해보겠습니다.

🧠 VLA 모델이란?

VLA는 로봇이 비전(카메라 등 센서)과 언어(텍스트 명령어)를 이해하고, 이를 바탕으로 적절한 행동을 수행하도록 설계된 모델입니다.

  • 기존 로봇 시스템의 한계: 특정 task에 대해서만 학습됨 → 유연한 상황 대처 불가
  • VLA 모델의 장점:
    • 상황을 시각적으로 인식 (Vision)
    • 언어로 된 명령을 이해 (Language)
    • 적절한 행동으로 연결 (Action)
    • 환경 변화와 새로운 태스크에 적응 가능

📺 관련 영상: VLA 개요 동영상 (YouTube)

🔍 대표적인 VLA 기반 모델 정리

1️⃣ SayCan

  • 구성: Language Model (PaLM 540B) + Reinforcement Learning
  • Say: 명령어를 바탕으로 가능한 행동들을 언어로 생성
  • Can: 시각 정보와 RL로 실행 가능성(Affordance) 평가
  • 특징: Planning과 Affordance를 분리

🔗 데모 페이지 바로가기

2️⃣ PaLM-E

  • 구성: Vision-Language Model (VLM) 기반 end-to-end 모델
  • 특징: 하나의 모델이 planning과 affordance를 모두 수행
  • 학습 방식: 멀티모달 사전학습 + 로봇 태스크 파인튜닝

🔗 PaLM-E 소개 블로그

3️⃣ RT-1

  • 방식: Imitation Learning 기반
  • 역할: SayCan이 만든 Plan을 실제 행동으로 실행
  • 제한점: 완전히 새로운 상황에서는 일반화가 어려움

🔗 RT-1 공식 페이지

4️⃣ RT-2

  • RT-1 + PaLM-E의 발전형
  • 구조: End-to-End, VLM → Action token 제어
  • 특징: Affordance → Action 흐름을 통합하여 성능 향상

🔗 RT-2 소개 블로그 (DeepMind)

5️⃣ OpenVLA

  • 특징: 모델과 데이터셋 모두 공개
  • Dataset: Open X-Embodiment (97만 개 에피소드)
  • 다양한 로봇 데이터를 통합하여 범용 학습 가능

🔗 OpenVLA 공식 페이지
🔗 GitHub 링크

📦 정리

모델 특징 요약 학습 방식 공개 여부
SayCan Planning과 Affordance 분리 LM + RL 🔗 Demo만
PaLM-E VLM에서 바로 affordance 추론 Pretrain + FT
RT-1 Plan 실행에 특화된 Imitation 모델 Imitation Learning 🔗 일부
RT-2 End-to-End 통합형 VLM + Action token 학습
OpenVLA 범용 로봇 데이터셋 + 모델 공개 Open X-Embodiment 기반 ✅ 전체

📝 참고 자료