🤖 Vision Language Action (VLA) 모델 개요 및 주요 사례 정리
AI와 로보틱스의 융합은 최근 눈부신 발전을 이루고 있으며, 그 중심에는 Vision-Language-Action (VLA) 모델이 있습니다. 이 글에서는 VLA 모델의 개념부터, 대표 모델들인 SayCan, PaLM-E, RT-1, RT-2, OpenVLA까지 간단하게 정리해보겠습니다.
🧠 VLA 모델이란?
VLA는 로봇이 비전(카메라 등 센서)과 언어(텍스트 명령어)를 이해하고, 이를 바탕으로 적절한 행동을 수행하도록 설계된 모델입니다.
- 기존 로봇 시스템의 한계: 특정 task에 대해서만 학습됨 → 유연한 상황 대처 불가
- VLA 모델의 장점:
- 상황을 시각적으로 인식 (Vision)
- 언어로 된 명령을 이해 (Language)
- 적절한 행동으로 연결 (Action)
- 환경 변화와 새로운 태스크에 적응 가능
📺 관련 영상: VLA 개요 동영상 (YouTube)
🔍 대표적인 VLA 기반 모델 정리
1️⃣ SayCan
- 구성: Language Model (PaLM 540B) + Reinforcement Learning
- Say: 명령어를 바탕으로 가능한 행동들을 언어로 생성
- Can: 시각 정보와 RL로 실행 가능성(Affordance) 평가
- 특징: Planning과 Affordance를 분리
2️⃣ PaLM-E
- 구성: Vision-Language Model (VLM) 기반 end-to-end 모델
- 특징: 하나의 모델이 planning과 affordance를 모두 수행
- 학습 방식: 멀티모달 사전학습 + 로봇 태스크 파인튜닝
3️⃣ RT-1
- 방식: Imitation Learning 기반
- 역할: SayCan이 만든 Plan을 실제 행동으로 실행
- 제한점: 완전히 새로운 상황에서는 일반화가 어려움
4️⃣ RT-2
- RT-1 + PaLM-E의 발전형
- 구조: End-to-End, VLM → Action token 제어
- 특징: Affordance → Action 흐름을 통합하여 성능 향상
5️⃣ OpenVLA
- 특징: 모델과 데이터셋 모두 공개
- Dataset: Open X-Embodiment (97만 개 에피소드)
- 다양한 로봇 데이터를 통합하여 범용 학습 가능
📦 정리
모델 | 특징 요약 | 학습 방식 | 공개 여부 |
---|---|---|---|
SayCan | Planning과 Affordance 분리 | LM + RL | 🔗 Demo만 |
PaLM-E | VLM에서 바로 affordance 추론 | Pretrain + FT | ❌ |
RT-1 | Plan 실행에 특화된 Imitation 모델 | Imitation Learning | 🔗 일부 |
RT-2 | End-to-End 통합형 | VLM + Action token 학습 | ❌ |
OpenVLA | 범용 로봇 데이터셋 + 모델 공개 | Open X-Embodiment 기반 | ✅ 전체 |
📝 참고 자료
'AI' 카테고리의 다른 글
Temporal Fusion Transformers 활용한 보행 행동 예측 아이디어 (1) | 2025.03.24 |
---|---|
Apple M4 pro chip 에서 keras 의 Stable Diffusion 모델 사용하기 (6) | 2025.01.07 |
Apple M4 pro vs M1 학습 속도 비교(GPU, CPU) (5) | 2025.01.03 |
Residual Network 구현 및 학습 (2) | 2024.11.24 |
DenseNet 구현 및 학습 (2) | 2024.11.22 |