📘 Lec11: Variational Inference and Generative Models
Hanyang University / Meta Learning / AAI0032

🗂️ 강의 개요
- 강의 주제: Variational Inference(변분 추론)과 생성 모델
- 주요 내용:
- 확률적 모델
- 잠재 변수(latent variable) 모델
- Variational Inference 및 ELBO
- Amortized Variational Inference
- Variational Autoencoder (VAE)와 Conditional Models
📍 1. Probabilistic Models
- 확률적 모델: 데이터와 불확실성을 설명하기 위해 확률 분포를 사용하는 모델
- 학습 목적: 모델 파라미터를 찾아서 데이터의 가능도(likelihood)를 최대화
- 복잡한 분포 필요성:
- 단순 분포로는 복잡한 데이터 생성 과정 표현에 한계
- 예) 비디오 생성, 이미지 생성, 자연어 처리 등에서 복잡한 분포 필요
🧩 주요 내용 풀이
1️⃣ Deterministic Meta-learning의 한계
- 메타러닝 방법들은 p(ϕi∣Ditr,θ) 형태의 deterministic (결정론적) 접근을 사용합니다.
- → 즉, 주어진 학습 데이터 D_i^{tr} 로부터 단일(하나의) 파라미터 추정값 \phi_i만을 산출합니다.
2️⃣ 왜 이것이 문제인가?
- Few-shot learning 문제는 애매함(ambiguous)을 내포
- → 예: 사람 얼굴 사진에서 ‘웃음’, ‘모자 착용’, ‘젊음’ 같은 속성을 분류할 때 일부 사례가 애매할 수 있음
- → 소량의 학습 데이터만 보고는 확실한 결론을 내리기 어려움
3️⃣ 미래 방향성: 확률적 추론
- 질문:Canwelearntogenerate hypothesesabout the underlying function?→ 단일 추정치가 아니라, 분포에서 샘플링하는 방식으로 다양한 가설(hypotheses)을 생성할 수 있을까?
- Can we learn to generate hypotheses about the underlying function?
- 이때 모델은:p(ϕi∣Ditr,θ) 로부터 샘플링하여 **잠재된 함수(underlying function)**의 불확실성을 반영할 수 있게 됨
4️⃣ 이 접근이 중요한 분야
- 🚑 안전이 중요한 분야 (safety-critical)
- 예: 의료 영상 (medical imaging), 잘못된 예측이 큰 리스크로 이어질 때
- 🎓 능동 학습 (actively learn)
- 모델이 학습 과정에서 학습할 데이터를 스스로 선택
- 🤖 메타 강화학습에서 탐색 (explore in meta-RL)
- 강화학습에서 새로운 환경을 탐색할 때 불확실성 고려
5️⃣ 최종 목표
- Goal:
- 단순한 point estimate에서 벗어나 다수의 가능성을 고려하는 방향으로 발전 필요
- 복잡한 분포(complex distributions)를 모델링하고 학습할 수 있을까?
📖 관련 연구
- Woodward & Finn (2016), Konyushkova et al. (2017), Bachman et al. (2017)
- → meta-learning과 active learning 결합 연구들
✨ 요약
기존 메타러닝은 deterministic 추정을 하지만, few-shot 환경에서는 불확실성이 크기 때문에 다양한 가설을 생성할 수 있는 probabilistic meta-learning으로 확장해야 하며, 이는 의료, 능동 학습, 강화학습 탐색 등에서 특히 중요하다.
📍 2. Latent Variable Models
- 잠재 변수 모델:
- 관측 데이터 x 와 잠재 변수 z 를 가정
- p(x, z) = p(x | z)p(z)
- 예시: mixture model, HMM, VAE, GAN
- 역할:
- 관측되지 않은 요인 z를 통해 데이터의 구조적 패턴을 학습
📍 3. Training Latent Variable Models
- 주요 목표:
- marginal likelihood 최대화 \log p(x) = \log \int p(x, z) dz
- 문제:
- \int p(x, z)dz 계산 불가능 (특히 고차원 z)
- 해결:
- Approximate Inference → Variational Inference 사용
📍 4. Variational Inference (VI)
- 핵심 아이디어:
- 복잡한 posterior p(z | x) 대신 tractable distribution q(z | x) 로 근사
- Evidence Lower Bound (ELBO):
- \log p(x) \geq \mathbb{E}_{q(z|x)}[\log p(x|z)] - KL[q(z|x) || p(z)]
- ELBO 최대화 → p(x) lower bound 최대화
- ELBO의 타이트함:
- q(z∣x) 가 p(z) 에 가까울수록 더 tight
📍 5. Amortized Variational Inference
- 데이터 x 마다 새로운 q(z∣x) 를 학습하는 대신, 공유 encoder q_\phi(z|x) 로 추론
- 장점:
- 계산 비용 감소
- 대규모 데이터셋에 적용 가능
📍 6. Example: Variational Autoencoder (VAE)
- VAE 구성
- Encoder q_\phi(z|x)
- Decoder p_\theta(x|z)
- 활용
- 이미지, 비디오, 음성 생성
- representation learning
📌 1. ELBO (Evidence Lower Bound) 식
슬라이드 상단:
\mathcal{L}i = \mathbb{E}{z \sim q_\phi(z|x_i)} \big[ \log p_\theta(x_i|z) + \log p(z) + \mathcal{H}(q_\phi(z|x_i)) \big]
- \log p_\theta(x_i|z) : reconstruction term (데이터 재구성 정확도)
- \log p(z) : prior term (잠재변수 분포)
- \mathcal{H}(q_\phi(z|x_i)) : entropy term (posterior의 불확실성)
📍 2. KL divergence로 변환
이 식은 KL divergence 형태로 다시 쓰임:
\mathbb{E}{z \sim q\phi(z|x_i)} [ \log p_\theta(x_i|z) ] - D_{KL}(q_\phi(z|x_i) \| p(z))
여기서:
- D_{KL}: posterior q_\phi(z|x_i)와 prior p(z) 간 차이를 측정 (정규화, regularization 효과)
💡 3. Reparameterization trick 적용
sampling이 gradient 계산에 방해되지 않도록 reparameterization:
z = \mu_\phi(x_i) + \epsilon \sigma_\phi(x_i), \quad \epsilon \sim \mathcal{N}(0,1)
따라서:
\mathbb{E}{\epsilon \sim \mathcal{N}(0,1)} \big[ \log p\theta(x_i | \mu_\phi(x_i) + \epsilon \sigma_\phi(x_i)) \big] - D_{KL}(q_\phi(z|x_i) \| p(z))
이렇게 하면 \mu_\phi, \sigma_\phi에 gradient를 줄 수 있음
🛠️ 4. 최종 근사식
보통 single sample approximation 사용:
\approx \log p_\theta(x_i | \mu_\phi(x_i) + \epsilon \sigma_\phi(x_i)) - D_{KL}(q_\phi(z|x_i) \| p(z))
🔧 5. 네트워크 구조
- x_i \to \mu_\phi(x_i), \sigma_\phi → encoder (\phi)
- \mu_\phi(x_i) + \epsilon \sigma_\phi(x_i) = z
- z \to p_\theta(x_i|z) → decoder (\theta)
→ VAE의 encoder-decoder 구조 요약
✅ 6. 추가 주석 내용
- KL term은 regularization 효과
- Gaussians 경우 KL divergence는 analytic form이 있어서 계산이 편리함
- encoder-parameterization은 amortized inference
- decoder는 p_\theta(x_i|z) 로 reconstruction loss 계산
📍 7. Conditional Models
- Conditional VAE:
- p(x | y, z), q(z | x, y)
- 입력 조건 y 주어 데이터 생성 (예: 라벨, 텍스트 설명)
- 예시:
- VQ-VAE-2 (Razavi et al., 2019): high-fidelity 이미지 생성
✅ 핵심 요약
개념 설명
Variational Inference | 복잡한 posterior를 tractable한 분포로 근사 |
ELBO | marginal likelihood의 하한(lower bound) |
Amortized VI | 데이터 x마다 새로운 $를 학습하는 대신, 공유 encoder $q_\phi(z|x)$ 로 추론 |
VAE | encoder-decoder 구조의 생성 모델 |
Conditional VAE | 조건부 생성, 라벨이나 설명 추가 |
📌 참고 논문
- Villegas et al., Phenaki (2022)
- Razavi et al., VQ-VAE-2 (2019)
'AI > 대학원' 카테고리의 다른 글
Meta-Learning Lec12 요약 (0) | 2025.05.10 |
---|---|
Meta-Learning Lec10 요약 (0) | 2025.05.09 |
Meta-Learning Lec9 요약 (1) | 2025.05.09 |
SAM 논문 소개 (0) | 2025.04.28 |
CPU(NumPy) and GPU(CuPy and PyTorch) 성능 비교 (3) | 2024.12.23 |