본문 바로가기

AI

Vision Language Action (VLA) 모델

guga 2025. 6. 3. 09:24

🤖 Vision Language Action (VLA) 모델 개요 및 주요 사례 정리

AI와 로보틱스의 융합은 최근 눈부신 발전을 이루고 있으며, 그 중심에는 Vision-Language-Action (VLA) 모델이 있습니다. 이 글에서는 VLA 모델의 개념부터, 대표 모델들인 SayCan, PaLM-E, RT-1, RT-2, OpenVLA까지 간단하게 정리해보겠습니다.

🧠 VLA 모델이란?

VLA는 로봇이 비전(카메라 등 센서)과 언어(텍스트 명령어)를 이해하고, 이를 바탕으로 적절한 행동을 수행하도록 설계된 모델입니다.

기존 로봇 시스템의 한계: 특정 task에 대해서만 학습됨 → 유연한 상황 대처 불가
VLA 모델의 장점:
- 상황을 시각적으로 인식 (Vision)
- 언어로 된 명령을 이해 (Language)
- 적절한 행동으로 연결 (Action)
- 환경 변화와 새로운 태스크에 적응 가능

📺 관련 영상: VLA 개요 동영상 (YouTube)

🔍 대표적인 VLA 기반 모델 정리

1️⃣ SayCan

구성: Language Model (PaLM 540B) + Reinforcement Learning
Say: 명령어를 바탕으로 가능한 행동들을 언어로 생성
Can: 시각 정보와 RL로 실행 가능성(Affordance) 평가
특징: Planning과 Affordance를 분리

🔗 데모 페이지 바로가기

2️⃣ PaLM-E

구성: Vision-Language Model (VLM) 기반 end-to-end 모델
특징: 하나의 모델이 planning과 affordance를 모두 수행
학습 방식: 멀티모달 사전학습 + 로봇 태스크 파인튜닝

🔗 PaLM-E 소개 블로그

3️⃣ RT-1

방식: Imitation Learning 기반
역할: SayCan이 만든 Plan을 실제 행동으로 실행
제한점: 완전히 새로운 상황에서는 일반화가 어려움

🔗 RT-1 공식 페이지

4️⃣ RT-2

RT-1 + PaLM-E의 발전형
구조: End-to-End, VLM → Action token 제어
특징: Affordance → Action 흐름을 통합하여 성능 향상

🔗 RT-2 소개 블로그 (DeepMind)

5️⃣ OpenVLA

특징: 모델과 데이터셋 모두 공개
Dataset: Open X-Embodiment (97만 개 에피소드)
다양한 로봇 데이터를 통합하여 범용 학습 가능

🔗 OpenVLA 공식 페이지
🔗 GitHub 링크

📦 정리

모델	특징 요약	학습 방식	공개 여부
SayCan	Planning과 Affordance 분리	LM + RL	🔗 Demo만
PaLM-E	VLM에서 바로 affordance 추론	Pretrain + FT	❌
RT-1	Plan 실행에 특화된 Imitation 모델	Imitation Learning	🔗 일부
RT-2	End-to-End 통합형	VLM + Action token 학습	❌
OpenVLA	범용 로봇 데이터셋 + 모델 공개	Open X-Embodiment 기반	✅ 전체

📝 참고 자료

저작자표시 비영리 변경금지 (새창열림)

'AI' 카테고리의 다른 글

Temporal Fusion Transformers 활용한 보행 행동 예측 아이디어 (1)	2025.03.24
Apple M4 pro chip 에서 keras 의 Stable Diffusion 모델 사용하기 (6)	2025.01.07
Apple M4 pro vs M1 학습 속도 비교(GPU, CPU) (5)	2025.01.03
Residual Network 구현 및 학습 (2)	2024.11.24
DenseNet 구현 및 학습 (2)	2024.11.22

티스토리툴바