Processing math: 0%
본문 바로가기

AI/대학원

Meta-Learning Lec11 요약

📘 Lec11: Variational Inference and Generative Models

Hanyang University / Meta Learning / AAI0032


🗂️ 강의 개요

  • 강의 주제: Variational Inference(변분 추론)과 생성 모델
  • 주요 내용:
    1. 확률적 모델
    2. 잠재 변수(latent variable) 모델
    3. Variational Inference 및 ELBO
    4. Amortized Variational Inference
    5. Variational Autoencoder (VAE)와 Conditional Models

📍 1. Probabilistic Models

  • 확률적 모델: 데이터와 불확실성을 설명하기 위해 확률 분포를 사용하는 모델
  • 학습 목적: 모델 파라미터를 찾아서 데이터의 가능도(likelihood)를 최대화
  • 복잡한 분포 필요성:
    • 단순 분포로는 복잡한 데이터 생성 과정 표현에 한계
    • 예) 비디오 생성, 이미지 생성, 자연어 처리 등에서 복잡한 분포 필요

🧩 주요 내용 풀이

1️⃣ Deterministic Meta-learning의 한계

  • 메타러닝 방법들은 p(ϕi∣Ditr,θ) 형태의 deterministic (결정론적) 접근을 사용합니다.
  • → 즉, 주어진 학습 데이터 D_i^{tr} 로부터 단일(하나의) 파라미터 추정값 \phi_i만을 산출합니다.

2️⃣ 왜 이것이 문제인가?

  • Few-shot learning 문제는 애매함(ambiguous)을 내포
  • → 예: 사람 얼굴 사진에서 ‘웃음’, ‘모자 착용’, ‘젊음’ 같은 속성을 분류할 때 일부 사례가 애매할 수 있음
  • → 소량의 학습 데이터만 보고는 확실한 결론을 내리기 어려움

3️⃣ 미래 방향성: 확률적 추론

  • 질문:Canwelearntogenerate hypothesesabout the underlying function?→ 단일 추정치가 아니라, 분포에서 샘플링하는 방식으로 다양한 가설(hypotheses)을 생성할 수 있을까?
  • Can we learn to generate hypotheses about the underlying function?
  • 이때 모델은:p(ϕi∣Ditr,θ) 로부터 샘플링하여 **잠재된 함수(underlying function)**의 불확실성을 반영할 수 있게 됨

4️⃣ 이 접근이 중요한 분야

  • 🚑 안전이 중요한 분야 (safety-critical)
    • 예: 의료 영상 (medical imaging), 잘못된 예측이 큰 리스크로 이어질 때
  • 🎓 능동 학습 (actively learn)
    • 모델이 학습 과정에서 학습할 데이터를 스스로 선택
  • 🤖 메타 강화학습에서 탐색 (explore in meta-RL)
    • 강화학습에서 새로운 환경을 탐색할 때 불확실성 고려

5️⃣ 최종 목표

  • Goal: 
    • 단순한 point estimate에서 벗어나 다수의 가능성을 고려하는 방향으로 발전 필요
    • 복잡한 분포(complex distributions)를 모델링하고 학습할 수 있을까?

📖 관련 연구

  • Woodward & Finn (2016), Konyushkova et al. (2017), Bachman et al. (2017)
  • → meta-learning과 active learning 결합 연구들

✨ 요약

기존 메타러닝은 deterministic 추정을 하지만, few-shot 환경에서는 불확실성이 크기 때문에 다양한 가설을 생성할 수 있는 probabilistic meta-learning으로 확장해야 하며, 이는 의료, 능동 학습, 강화학습 탐색 등에서 특히 중요하다.


📍 2. Latent Variable Models

  • 잠재 변수 모델:
    • 관측 데이터 x 와 잠재 변수 z 를 가정
    • p(x, z) = p(x | z)p(z)
    • 예시: mixture model, HMM, VAE, GAN
  • 역할:
    • 관측되지 않은 요인 z를 통해 데이터의 구조적 패턴을 학습

📍 3. Training Latent Variable Models

  • 주요 목표:
    • marginal likelihood 최대화 \log p(x) = \log \int p(x, z) dz
  • 문제:
    • \int p(x, z)dz 계산 불가능 (특히 고차원 z)
  • 해결:
    • Approximate Inference → Variational Inference 사용

📍 4. Variational Inference (VI)

  • 핵심 아이디어:
    • 복잡한 posterior p(z | x) 대신 tractable distribution q(z | x) 로 근사
  • Evidence Lower Bound (ELBO):
  • \log p(x) \geq \mathbb{E}_{q(z|x)}[\log p(x|z)] - KL[q(z|x) || p(z)]
  • ELBO 최대화 → p(x) lower bound 최대화
  • ELBO의 타이트함:
    • q(z∣x)p(z) 에 가까울수록 더 tight

📍 5. Amortized Variational Inference

  • 데이터 x 마다 새로운 q(z∣x) 를 학습하는 대신, 공유 encoder q_\phi(z|x) 로 추론
  • 장점:
    • 계산 비용 감소
    • 대규모 데이터셋에 적용 가능

📍 6. Example: Variational Autoencoder (VAE)

  • VAE 구성
    • Encoder q_\phi(z|x)
    • Decoder p_\theta(x|z)
  • 활용
    • 이미지, 비디오, 음성 생성
    • representation learning

📌 1. ELBO (Evidence Lower Bound) 식

슬라이드 상단:

\mathcal{L}i = \mathbb{E}{z \sim q_\phi(z|x_i)} \big[ \log p_\theta(x_i|z) + \log p(z) + \mathcal{H}(q_\phi(z|x_i)) \big]

  • \log p_\theta(x_i|z) : reconstruction term (데이터 재구성 정확도)
  • \log p(z) : prior term (잠재변수 분포)
  • \mathcal{H}(q_\phi(z|x_i)) : entropy term (posterior의 불확실성)

📍 2. KL divergence로 변환

이 식은 KL divergence 형태로 다시 쓰임:

\mathbb{E}{z \sim q\phi(z|x_i)} [ \log p_\theta(x_i|z) ] - D_{KL}(q_\phi(z|x_i) \| p(z))

여기서:

  • D_{KL}: posterior q_\phi(z|x_i)와 prior p(z) 간 차이를 측정 (정규화, regularization 효과)

💡 3. Reparameterization trick 적용

sampling이 gradient 계산에 방해되지 않도록 reparameterization:

z = \mu_\phi(x_i) + \epsilon \sigma_\phi(x_i), \quad \epsilon \sim \mathcal{N}(0,1)

따라서:

\mathbb{E}{\epsilon \sim \mathcal{N}(0,1)} \big[ \log p\theta(x_i | \mu_\phi(x_i) + \epsilon \sigma_\phi(x_i)) \big] - D_{KL}(q_\phi(z|x_i) \| p(z))

이렇게 하면 \mu_\phi, \sigma_\phi에 gradient를 줄 수 있음


🛠️ 4. 최종 근사식

보통 single sample approximation 사용:

\approx \log p_\theta(x_i | \mu_\phi(x_i) + \epsilon \sigma_\phi(x_i)) - D_{KL}(q_\phi(z|x_i) \| p(z))


🔧 5. 네트워크 구조

  • x_i \to \mu_\phi(x_i), \sigma_\phi → encoder (\phi)
  • \mu_\phi(x_i) + \epsilon \sigma_\phi(x_i) = z
  • z \to p_\theta(x_i|z) → decoder (\theta)

→ VAE의 encoder-decoder 구조 요약


✅ 6. 추가 주석 내용

  • KL term은 regularization 효과
  • Gaussians 경우 KL divergence는 analytic form이 있어서 계산이 편리함
  • encoder-parameterization은 amortized inference
  • decoder는 p_\theta(x_i|z) 로 reconstruction loss 계산

📍 7. Conditional Models

  • Conditional VAE:
    • p(x | y, z), q(z | x, y)
    • 입력 조건 y 주어 데이터 생성 (예: 라벨, 텍스트 설명)
  • 예시:
    • VQ-VAE-2 (Razavi et al., 2019): high-fidelity 이미지 생성

핵심 요약

개념 설명

Variational Inference 복잡한 posterior를 tractable한 분포로 근사
ELBO marginal likelihood의 하한(lower bound)
Amortized VI 데이터 x마다 새로운 $를 학습하는 대신, 공유 encoder $q_\phi(z|x)$ 로 추론
VAE encoder-decoder 구조의 생성 모델
Conditional VAE 조건부 생성, 라벨이나 설명 추가

📌 참고 논문

  • Villegas et al., Phenaki (2022)
  • Razavi et al., VQ-VAE-2 (2019)

'AI > 대학원' 카테고리의 다른 글

Meta-Learning Lec12 요약  (0) 2025.05.10
Meta-Learning Lec10 요약  (0) 2025.05.09
Meta-Learning Lec9 요약  (1) 2025.05.09
SAM 논문 소개  (0) 2025.04.28
CPU(NumPy) and GPU(CuPy and PyTorch) 성능 비교  (3) 2024.12.23