📘 Lec11: Variational Inference and Generative Models

Hanyang University / Meta Learning / AAI0032

🗂️ 강의 개요

강의 주제: Variational Inference(변분 추론)과 생성 모델
주요 내용:
1. 확률적 모델
2. 잠재 변수(latent variable) 모델
3. Variational Inference 및 ELBO
4. Amortized Variational Inference
5. Variational Autoencoder (VAE)와 Conditional Models

📍 1. Probabilistic Models

확률적 모델: 데이터와 불확실성을 설명하기 위해 확률 분포를 사용하는 모델
학습 목적: 모델 파라미터를 찾아서 데이터의 가능도(likelihood)를 최대화
복잡한 분포 필요성:
- 단순 분포로는 복잡한 데이터 생성 과정 표현에 한계
- 예) 비디오 생성, 이미지 생성, 자연어 처리 등에서 복잡한 분포 필요

🧩 주요 내용 풀이

1️⃣ Deterministic Meta-learning의 한계

메타러닝 방법들은 $p(ϕi∣Ditr,θ)$ 형태의 deterministic (결정론적) 접근을 사용합니다.
→ 즉, 주어진 학습 데이터 $D_i^{tr}$ 로부터 단일(하나의) 파라미터 추정값 $\phi_i$ 만을 산출합니다.

2️⃣ 왜 이것이 문제인가?

Few-shot learning 문제는 애매함(ambiguous)을 내포
→ 예: 사람 얼굴 사진에서 ‘웃음’, ‘모자 착용’, ‘젊음’ 같은 속성을 분류할 때 일부 사례가 애매할 수 있음
→ 소량의 학습 데이터만 보고는 확실한 결론을 내리기 어려움

3️⃣ 미래 방향성: 확률적 추론

질문:Canwelearntogenerate hypothesesabout the underlying function?→ 단일 추정치가 아니라, 분포에서 샘플링하는 방식으로 다양한 가설(hypotheses)을 생성할 수 있을까?
Can we learn to generate hypotheses about the underlying function?
이때 모델은: $p(ϕi∣Ditr,θ)$ 로부터 샘플링하여 **잠재된 함수(underlying function)**의 불확실성을 반영할 수 있게 됨

4️⃣ 이 접근이 중요한 분야

🚑 안전이 중요한 분야 (safety-critical)
- 예: 의료 영상 (medical imaging), 잘못된 예측이 큰 리스크로 이어질 때
🎓 능동 학습 (actively learn)
- 모델이 학습 과정에서 학습할 데이터를 스스로 선택
🤖 메타 강화학습에서 탐색 (explore in meta-RL)
- 강화학습에서 새로운 환경을 탐색할 때 불확실성 고려

5️⃣ 최종 목표

Goal:
- 단순한 point estimate에서 벗어나 다수의 가능성을 고려하는 방향으로 발전 필요
- 복잡한 분포(complex distributions)를 모델링하고 학습할 수 있을까?

📖 관련 연구

Woodward & Finn (2016), Konyushkova et al. (2017), Bachman et al. (2017)
→ meta-learning과 active learning 결합 연구들

✨ 요약

기존 메타러닝은 deterministic 추정을 하지만, few-shot 환경에서는 불확실성이 크기 때문에 다양한 가설을 생성할 수 있는 probabilistic meta-learning으로 확장해야 하며, 이는 의료, 능동 학습, 강화학습 탐색 등에서 특히 중요하다.

📍 2. Latent Variable Models

잠재 변수 모델:
- 관측 데이터 $x$ 와 잠재 변수 $z$ 를 가정
- $p(x, z) = p(x | z)p(z)$
- 예시: mixture model, HMM, VAE, GAN
역할:
- 관측되지 않은 요인 $z$ 를 통해 데이터의 구조적 패턴을 학습

📍 3. Training Latent Variable Models

주요 목표:
- marginal likelihood 최대화 $\log p(x) = \log \int p(x, z) dz$
문제:
- $\int p(x, z)dz$ 계산 불가능 (특히 고차원 $z$ )
해결:
- Approximate Inference → Variational Inference 사용

📍 4. Variational Inference (VI)

핵심 아이디어:
- 복잡한 posterior $p(z | x)$ 대신 tractable distribution $q(z | x)$ 로 근사
Evidence Lower Bound (ELBO):
$\log p(x) \geq \mathbb{E}_{q(z|x)}[\log p(x|z)] - KL[q(z|x) || p(z)]$
ELBO 최대화 → $p(x)$ lower bound 최대화
ELBO의 타이트함:
- $q(z∣x)$ 가 $p(z)$ 에 가까울수록 더 tight

📍 5. Amortized Variational Inference

데이터 $x$ 마다 새로운 $q(z∣x)$ 를 학습하는 대신, 공유 encoder $q_\phi(z|x)$ 로 추론
장점:
- 계산 비용 감소
- 대규모 데이터셋에 적용 가능

📍 6. Example: Variational Autoencoder (VAE)

VAE 구성
- Encoder $q_\phi(z|x)$
- Decoder $p_\theta(x|z)$
활용
- 이미지, 비디오, 음성 생성
- representation learning

📌 1. ELBO (Evidence Lower Bound) 식

슬라이드 상단:

$\mathcal{L}i = \mathbb{E}{z \sim q_\phi(z|x_i)} \big[ \log p_\theta(x_i|z) + \log p(z) + \mathcal{H}(q_\phi(z|x_i)) \big]$

$\log p_\theta(x_i|z)$ : reconstruction term (데이터 재구성 정확도)
$\log p(z)$ : prior term (잠재변수 분포)
$\mathcal{H}(q_\phi(z|x_i))$ : entropy term (posterior의 불확실성)

📍 2. KL divergence로 변환

이 식은 KL divergence 형태로 다시 쓰임:

$\mathbb{E}{z \sim q\phi(z|x_i)} [ \log p_\theta(x_i|z) ] - D_{KL}(q_\phi(z|x_i) \| p(z))$

여기서:

$D_{KL}$ : posterior $q_\phi(z|x_i)$ 와 prior $p(z)$ 간 차이를 측정 (정규화, regularization 효과)

💡 3. Reparameterization trick 적용

sampling이 gradient 계산에 방해되지 않도록 reparameterization:

$z = \mu_\phi(x_i) + \epsilon \sigma_\phi(x_i), \quad \epsilon \sim \mathcal{N}(0,1)$

따라서:

$\mathbb{E}{\epsilon \sim \mathcal{N}(0,1)} \big[ \log p\theta(x_i | \mu_\phi(x_i) + \epsilon \sigma_\phi(x_i)) \big] - D_{KL}(q_\phi(z|x_i) \| p(z))$

이렇게 하면 $\mu_\phi$ , $\sigma_\phi$ 에 gradient를 줄 수 있음

🛠️ 4. 최종 근사식

보통 single sample approximation 사용:

$\approx \log p_\theta(x_i | \mu_\phi(x_i) + \epsilon \sigma_\phi(x_i)) - D_{KL}(q_\phi(z|x_i) \| p(z))$

🔧 5. 네트워크 구조

$x_i \to \mu_\phi(x_i), \sigma_\phi$ → encoder $(\phi)$
$\mu_\phi(x_i) + \epsilon \sigma_\phi(x_i) = z$
$z \to p_\theta(x_i|z)$ → decoder $(\theta)$

→ VAE의 encoder-decoder 구조 요약

✅ 6. 추가 주석 내용

KL term은 regularization 효과
Gaussians 경우 KL divergence는 analytic form이 있어서 계산이 편리함
encoder-parameterization은 amortized inference
decoder는 $p_\theta(x_i|z)$ 로 reconstruction loss 계산

📍 7. Conditional Models

Conditional VAE:
- $p(x | y, z), q(z | x, y)$
- 입력 조건 $y$ 주어 데이터 생성 (예: 라벨, 텍스트 설명)
예시:
- VQ-VAE-2 (Razavi et al., 2019): high-fidelity 이미지 생성

✅ 핵심 요약

개념 설명

Variational Inference	복잡한 posterior를 tractable한 분포로 근사
ELBO	marginal likelihood의 하한(lower bound)
Amortized VI	데이터 x마다 새로운 $를 학습하는 대신, 공유 encoder $q_\phi(z\|x)$ 로 추론
VAE	encoder-decoder 구조의 생성 모델
Conditional VAE	조건부 생성, 라벨이나 설명 추가

📌 참고 논문

Villegas et al., Phenaki (2022)
Razavi et al., VQ-VAE-2 (2019)

저작자표시 비영리 변경금지 (새창열림)

'AI > 대학원' 카테고리의 다른 글

Meta-Learning Lec12 요약 (0)	2025.05.10
Meta-Learning Lec10 요약 (0)	2025.05.09
Meta-Learning Lec9 요약 (1)	2025.05.09
SAM 논문 소개 (0)	2025.04.28
CPU(NumPy) and GPU(CuPy and PyTorch) 성능 비교 (3)	2024.12.23

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

GUGA 의 Time machine

Meta-Learning Lec11 요약

📘 Lec11: Variational Inference and Generative Models

🗂️ 강의 개요

📍 1. Probabilistic Models

🧩 주요 내용 풀이

📖 관련 연구

✨ 요약

📍 2. Latent Variable Models

📍 3. Training Latent Variable Models

📍 4. Variational Inference (VI)

📍 5. Amortized Variational Inference

📍 6. Example: Variational Autoencoder (VAE)

📌 1. ELBO (Evidence Lower Bound) 식

📍 2. KL divergence로 변환

💡 3. Reparameterization trick 적용

🛠️ 4. 최종 근사식

🔧 5. 네트워크 구조

✅ 6. 추가 주석 내용

📍 7. Conditional Models

✅ 핵심 요약

📌 참고 논문

'AI > 대학원' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

Meta-Learning Lec11 요약

📘 Lec11: Variational Inference and Generative Models

🗂️ 강의 개요

📍 1. Probabilistic Models

🧩 주요 내용 풀이

📖 관련 연구

✨ 요약

📍 2. Latent Variable Models

📍 3. Training Latent Variable Models

📍 4. Variational Inference (VI)

📍 5. Amortized Variational Inference

📍 6. Example: Variational Autoencoder (VAE)

📌 1. ELBO (Evidence Lower Bound) 식

📍 2. KL divergence로 변환

💡 3. Reparameterization trick 적용

🛠️ 4. 최종 근사식

🔧 5. 네트워크 구조

✅ 6. 추가 주석 내용

📍 7. Conditional Models

✅ 핵심 요약

📌 참고 논문

'AI > 대학원' 카테고리의 다른 글

'AI/대학원' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역