본문 바로가기

인공지능

(15)

Vision Language Action (VLA) 모델 🤖 Vision Language Action (VLA) 모델 개요 및 주요 사례 정리AI와 로보틱스의 융합은 최근 눈부신 발전을 이루고 있으며, 그 중심에는 Vision-Language-Action (VLA) 모델이 있습니다. 이 글에서는 VLA 모델의 개념부터, 대표 모델들인 SayCan, PaLM-E, RT-1, RT-2, OpenVLA까지 간단하게 정리해보겠습니다.🧠 VLA 모델이란?VLA는 로봇이 비전(카메라 등 센서)과 언어(텍스트 명령어)를 이해하고, 이를 바탕으로 적절한 행동을 수행하도록 설계된 모델입니다.기존 로봇 시스템의 한계: 특정 task에 대해서만 학습됨 → 유연한 상황 대처 불가VLA 모델의 장점:상황을 시각적으로 인식 (Vision)언어로 된 명령을 이해 (Language)적..

SAM 논문 소개 Segment Anything Model (SAM)Meta AI Research의 혁신적인 세그멘테이션 모델Notion : https://gugaluv.notion.site/SAM-1e31fcd04676800f863cc6007841d792?pvs=4 목차SAM 소개 및 개요SAM의 특징모델 구조프롬프트 엔지니어링SA-1B 데이터셋활용 사례한계점결론 및 향후 방향1. SAM 소개 및 개요Segment Anything Model이란?Meta AI Research에서 개발한 프롬프트 기반 이미지 세그멘테이션 모델2023년 4월 발표새로운 태스크: Promptable Segmentation다양한 형태의 프롬프트를 통해 이미지 내 객체 분할 가능강력한 Zero-shot 성능SAM의 목표범용적인 세그멘테이션 모델 ..

Temporal Fusion Transformers 활용한 보행 행동 예측 아이디어 Temporal Fusion Transformers 논문 요약"Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting"은 다양한 시계열 예측 작업에 적용할 수 있는 새로운 주목 기반 아키텍처를 제안한 논문입니다.Google AI Research와 옥스포드 대학에서 공동연구하여 발표한 논문으로, 시계열 문제에서 높은 성능을 달성한 모델입니다. Transformer 구조를 사용하며 시계열 데이터 정보를 잘 추출할 수 있도록 개발한 모델로써, 미래 알 수 있는 변수와 공변량을 활용하여 예측을 수행하는 모델을 제시합니다. 당시 획기적은 구조를 제시하여 SOTA 성능을 달성하였습니다. 핵심 개념다중 시계열 통합: 정적..

DETR + SAM 으로 Zero-shot Instance Segmentation 구현하기 개요local 환경에서 DETR 로 검출 된 object 의 bbox 를 SAM 에 prompt 입력으로 넣어 Instance Segmentation 을 수행하는 방법을 구현한다. 사용 모델Segment Anything [논문리뷰] Segment AnythingSegment Anything (SAM) 논문 요약논문에서는 Segment Anything (SA) 프로젝트를 소개하며, 이미지 분할을 위한 새로운 모델, 데이터셋, 및 태스크를 제안한다. 이를 통해 프롬프트 기반 분할(promptable segmentagugalove.tistory.com Segment AnythingMeta AI Computer Vision Researchsegment-anything.com DETR End-to-End Obj..

[논문리뷰] Segment Anything Segment Anything (SAM) 논문 요약논문에서는 Segment Anything (SA) 프로젝트를 소개하며, 이미지 분할을 위한 새로운 모델, 데이터셋, 및 태스크를 제안한다. 이를 통해 프롬프트 기반 분할(promptable segmentation)을 수행하는 Segment Anything Model (SAM)을 개발하고, 1B 이상의 마스크를 포함하는 SA-1B 데이터셋을 구축했다. 아래 노션에 정리한 문서를 공유 합니다.https://gugaluv.notion.site/Segment-Anything-19a1fcd046768099839ccefa410273a2 Segment Anything | Notion참고 사이트 및 이미지 출처gugaluv.notion.site

[논문리뷰] ComKD-CLIP: Comprehensive Knowledge Distillation for ContrastiveLanguage-Image Pre-traning Model https://arxiv.org/abs/2408.04145 ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning ModelContrastive Language-Image Pre-training (CLIP) models excel in integrating semantic information between images and text through contrastive learning techniques. It has achieved remarkable performance in various multimodal tasks. However, the deployment ofarxiv.orgComK..

Airflow 디버깅 및 수정내용 개요MLOps 과정 'Airflow 구성하기 - 예제 2 _ 파트 2' 에서 메모리 문제로 error 발생한 부분에 대한 디버깅 및 수정 내용입니다.디버깅 후 수정이라 Airflow 개발 내용은 생략 합니다. 문제점최종 Airflow HuggingFace 데이터셋 등록 과정에서 에러 발생Hugging Face 에 gugalove/mlops_gsod 로 create_repo 는 되나 데이터셋이 업로드 안됨 수정내용도커의 메모리 부족 의심되어 아래와 같이 Memory 확장 하였으나 failed 되는 시간만 늘어나고 결국 에러 발생 함디버깅 코드 추가 하여 문제점 확인mlops-quicklab/airflow/basic/dags/bigquery_to_huggingface.py18Gb 로 확장해도 결국 메모리 ..

CPU(NumPy) and GPU(CuPy and PyTorch) 성능 비교 개요CPU(NumPy) and GPU(CuPy and PyTorch) 비교 테스트 내용행렬 곱셈 성능 비교:NumPy(CPU), CuPy(GPU), PyTorch(GPU) 구현을 비교다양한 행렬 크기 [128, 256, 512, 1024, 2048] 에 대해 테스트각 구현의 실행 시간과 CPU 대비 속도 향상을 측정실행 시간 시각화신경망 학습 성능 비교:간단한 이진 분류 신경망을 구현CPU와 GPU 기반 학습 시간을 비교다양한 히든 레이어 크기(64, 128, 256)에 대해 테스트각 설정에서의 학습 시간과 GPU 가속 효과를 측정구현 및 테스트 환경 : Colab PRO (GPU : Tesla T4)# GPU 사용 가능 여부 확인import torchprint(f"PyTorch version: {tor..

목록 더보기

티스토리툴바