📘 Lec10-Advanced-Meta-Learning-Large-scale-meta-optimization 요약
📢 1. 강의 개요
- 주제: 대규모 메타 최적화(Large-Scale Meta-Optimization)에 관한 고급 메타러닝 주제
- 학습 목표:
- 기존 메타러닝 접근법이 규모로 인해 실패하는 시나리오 이해하기
- 대규모 메타 최적화를 위한 기술 이해하기
📚 2. 메타러닝 방법의 확장성
💡 "메타러닝 방법이 확장 가능한가?"라는 질문에서 시작하는 중요한 주제
- 두 유형의 사전 확률 비교
- 수작업 설계 사전 확률(Hand-designed priors) vs 데이터 기반 사전 확률(Data-driven priors)
- 데이터 기반 접근방식이 일반적으로 더 확장성이 있다고 추정됨
- 메타러닝 발전 과정: 머신 비전 분야에서 모델링 이미지 형성 → SIFT 특징 → ImageNet에서 미세조정 → 메타러닝
- 실제로 메타러닝이 대규모에서 작동하는지 실증적으로 검증하는 것이 필요함
🔍 3. 대규모 메타 최적화의 응용 사례
3.1 하이퍼파라미터 최적화
"Population Based Training of Neural Networks"(Jaderberg et al., 2017): 여러 도메인에서 임의 검색보다 우수한 성능 보임
"Optimizing Millions of Hyperparameters by Implicit Differentiation"(Lorraine et al., 2019): LSTM 하이퍼파라미터 최적화 및 데이터 강화 네트워크의 하이퍼파라미터 최적화
3.2 데이터셋 축소
"Dataset Condensation with Gradient Matching"(Zhao et al., 2020): 검증 세트 성능을 위한 합성 훈련 세트 최적화
각 클래스당 소수의 이미지만으로도 높은 정확도 달성
3.3 신경망 구조 검색(NAS)
"Neural Architecture Search with Reinforcement Learning"(Zoph and Le, 2017): RNN을 사용하여 신경망 아키텍처 생성
검증 세트 성능을 위한 아키텍처 최적화
3.4 Optimizer 학습
"Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves"(Metz et al., 2020)
- 실제 ResNet 규모에서도 작동하는 효과적인 학습된 Optimizer 개발
- Optimizer 가 스스로를 훈련할 수 있는 수준까지 도달
📈 4. 대규모 계산 그래프와 직접적인 역전파
⚠️ 메모리 비용이 계산 그래프 크기에 비례해 증가하는 심각한 문제!
- 계산 그래프 규모 비교
- 4계층 CNN: <10만 매개변수
- WRN-28-10: 약 4백만 매개변수
- ResNet-12: <1천만 매개변수
- PyTorch 튜토리얼 기본 2계층 MLP 예시
- 매개변수: <7백만 개
- 경사도 단계: 5 에폭으로 약 4천 번
- 총 부동소수점 연산: 약 2e10 (>100GB 메모리 필요!)
4.1 메타-파라미터 유형
🤖 메타 파라미터는 다양한 계산 그래프 구성요소가 될 수 있음
- 초기 매개변수
- 학습률
- Optimizer
- 손실 함수
- 데이터셋
- 네트워크 아키텍처
🔧 5. 대규모 메타 최적화 접근법
5.1 Truncated Backpropagation
losses = []
for x, y in train_loader:
y_pred, state = rnn(state)
losses.append(loss_fn(y, y_pred))
if len(losses) == T:
torch.sum(losses).backward()
opt.step()
opt.zero_grad()
state.detach_()
losses = []
⭐ 전체 시퀀스를 짧은 조각으로 나누고 각 조각을 처리한 후 역전파
- 장단점 분석
- 장점: 자동 미분 시스템이 모든 것을 처리함 (구현 간단)
- 단점: 편향된 추정기, 장거리 의존성 캡처 불가
- 단점: 시퀀스 길이가 정확성과 메모리 비용 사이 트레이드오프 발생
5.2 Gradient-free Optimization
🐍 Evolution Strategies: 확률적 유한 차분을 사용하여 경사도 추정
- 진화 전략 기본 알고리즘
- 장단점 분석
- 장점: 일정한 메모리 비용 유지
- 장점: 병렬화 가능
- 장점: 내부 단계가 미분 불가능해도 됨
- 단점: 고차원 공변량이나 복잡한 손실 표면에서 어려움 발생
5.3 기타 접근법
💭 Implicit Differentiation : 내부 루프의 최종 결과만 기반으로 전체 메타 경사도 계산
🧠 Forward-mode Differentiation : 역전파와 반대 방향으로 체인 룰 사용
🌐 6. 결론
👁️ 대규모 메타 최적화에 대한 교훈
- 메타러닝은 다양한 응용 분야를 가지지만, 대규모 계산 그래프에서는 메모리 요구사항이 많이 발생합니다.
- 직접적인 역전파는 계산 그래프가 크면 메모리 요구사항이 많이 발생합니다.
- 절단된 역전파는 메모리 비용을 절감하지만 장거리 의존성을 눆치게 됩니다.
- 경사도 없는 최적화(진화 전략 등)는 매개변수의 수가 많을 때 한계에 부딪합니다.
- 암시적 미분과 정방향 모드 미분은 또 다른 접근방법이며, 각각의 장단점을 가지고 있습니다.
📝 7. 시험 대비 요점 정리
- 주요 키워드 요약
- 메타러닝 확장성: 수작업 vs 데이터 기반 사전 확률, 확장성 문제
- 계산 그래프: 신경망 규모, 메모리 비용, 부동소수점 연산량
- 주요 응용 사례: 하이퍼파라미터 최적화, 데이터셋 축소, 신경망 구조 검색, 최적화기 학습
- 접근 방법 비교: Truncated Backpropagation, Gradient-free Optimization, Implicit Differentiation, Forward-mode Differentiation
'AI > 대학원' 카테고리의 다른 글
Meta-Learning Lec12 요약 (0) | 2025.05.10 |
---|---|
Meta-Learning Lec11 요약 (0) | 2025.05.09 |
Meta-Learning Lec9 요약 (1) | 2025.05.09 |
SAM 논문 소개 (0) | 2025.04.28 |
CPU(NumPy) and GPU(CuPy and PyTorch) 성능 비교 (2) | 2024.12.23 |