본문 바로가기

AI/대학원

Meta-Learning Lec10 요약

📘 Lec10-Advanced-Meta-Learning-Large-scale-meta-optimization 요약


📢 1. 강의 개요

  • 주제: 대규모 메타 최적화(Large-Scale Meta-Optimization)에 관한 고급 메타러닝 주제
  • 학습 목표:
  1. 기존 메타러닝 접근법이 규모로 인해 실패하는 시나리오 이해하기
  2. 대규모 메타 최적화를 위한 기술 이해하기

📚 2. 메타러닝 방법의 확장성

💡 "메타러닝 방법이 확장 가능한가?"라는 질문에서 시작하는 중요한 주제

  • 두 유형의 사전 확률 비교
    • 수작업 설계 사전 확률(Hand-designed priors) vs 데이터 기반 사전 확률(Data-driven priors)
    • 데이터 기반 접근방식이 일반적으로 더 확장성이 있다고 추정됨
    • 메타러닝 발전 과정: 머신 비전 분야에서 모델링 이미지 형성 → SIFT 특징 → ImageNet에서 미세조정 → 메타러닝
    • 실제로 메타러닝이 대규모에서 작동하는지 실증적으로 검증하는 것이 필요함

🔍 3. 대규모 메타 최적화의 응용 사례

3.1 하이퍼파라미터 최적화

"Population Based Training of Neural Networks"(Jaderberg et al., 2017): 여러 도메인에서 임의 검색보다 우수한 성능 보임

"Optimizing Millions of Hyperparameters by Implicit Differentiation"(Lorraine et al., 2019): LSTM 하이퍼파라미터 최적화 및 데이터 강화 네트워크의 하이퍼파라미터 최적화

3.2 데이터셋 축소

"Dataset Condensation with Gradient Matching"(Zhao et al., 2020): 검증 세트 성능을 위한 합성 훈련 세트 최적화

각 클래스당 소수의 이미지만으로도 높은 정확도 달성

3.3 신경망 구조 검색(NAS)

"Neural Architecture Search with Reinforcement Learning"(Zoph and Le, 2017): RNN을 사용하여 신경망 아키텍처 생성

검증 세트 성능을 위한 아키텍처 최적화

3.4 Optimizer 학습

"Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves"(Metz et al., 2020)

  • 실제 ResNet 규모에서도 작동하는 효과적인 학습된 Optimizer 개발
  • Optimizer 가 스스로를 훈련할 수 있는 수준까지 도달

📈 4. 대규모 계산 그래프와 직접적인 역전파

 ⚠️ 메모리 비용이 계산 그래프 크기에 비례해 증가하는 심각한 문제!

  • 계산 그래프 규모 비교
    • 4계층 CNN: <10만 매개변수
    • WRN-28-10: 약 4백만 매개변수
    • ResNet-12: <1천만 매개변수
  • PyTorch 튜토리얼 기본 2계층 MLP 예시
    • 매개변수: <7백만 개
    • 경사도 단계: 5 에폭으로 약 4천 번
    • 총 부동소수점 연산: 약 2e10 (>100GB 메모리 필요!)

4.1 메타-파라미터 유형

🤖 메타 파라미터는 다양한 계산 그래프 구성요소가 될 수 있음

  • 초기 매개변수
  • 학습률
  • Optimizer
  • 손실 함수
  • 데이터셋
  • 네트워크 아키텍처

🔧 5. 대규모 메타 최적화 접근법

5.1 Truncated Backpropagation

losses = []
for x, y in train_loader:
    y_pred, state = rnn(state)
    losses.append(loss_fn(y, y_pred))
    if len(losses) == T:
        torch.sum(losses).backward()
        opt.step()
        opt.zero_grad()
        state.detach_()
        losses = []

⭐ 전체 시퀀스를 짧은 조각으로 나누고 각 조각을 처리한 후 역전파

  • 장단점 분석
    • 장점: 자동 미분 시스템이 모든 것을 처리함 (구현 간단)
    • 단점: 편향된 추정기, 장거리 의존성 캡처 불가
    • 단점: 시퀀스 길이가 정확성과 메모리 비용 사이 트레이드오프 발생

5.2 Gradient-free Optimization

🐍 Evolution Strategies: 확률적 유한 차분을 사용하여 경사도 추정

  • 진화 전략 기본 알고리즘

  • 장단점 분석
    • 장점: 일정한 메모리 비용 유지
    • 장점: 병렬화 가능
    • 장점: 내부 단계가 미분 불가능해도 됨
    • 단점: 고차원 공변량이나 복잡한 손실 표면에서 어려움 발생

5.3 기타 접근법

 💭 Implicit Differentiation : 내부 루프의 최종 결과만 기반으로 전체 메타 경사도 계산

 🧠 Forward-mode Differentiation : 역전파와 반대 방향으로 체인 룰 사용


🌐 6. 결론

 👁️ 대규모 메타 최적화에 대한 교훈

  1. 메타러닝은 다양한 응용 분야를 가지지만, 대규모 계산 그래프에서는 메모리 요구사항이 많이 발생합니다.
  2. 직접적인 역전파는 계산 그래프가 크면 메모리 요구사항이 많이 발생합니다.
  3. 절단된 역전파는 메모리 비용을 절감하지만 장거리 의존성을 눆치게 됩니다.
  4. 경사도 없는 최적화(진화 전략 등)는 매개변수의 수가 많을 때 한계에 부딪합니다.
  5. 암시적 미분과 정방향 모드 미분은 또 다른 접근방법이며, 각각의 장단점을 가지고 있습니다.

📝 7. 시험 대비 요점 정리

  • 주요 키워드 요약
    • 메타러닝 확장성: 수작업 vs 데이터 기반 사전 확률, 확장성 문제
    • 계산 그래프: 신경망 규모, 메모리 비용, 부동소수점 연산량
    • 주요 응용 사례: 하이퍼파라미터 최적화, 데이터셋 축소, 신경망 구조 검색, 최적화기 학습
    • 접근 방법 비교: Truncated Backpropagation, Gradient-free Optimization, Implicit Differentiation, Forward-mode Differentiation

'AI > 대학원' 카테고리의 다른 글

Meta-Learning Lec12 요약  (0) 2025.05.10
Meta-Learning Lec11 요약  (0) 2025.05.09
Meta-Learning Lec9 요약  (1) 2025.05.09
SAM 논문 소개  (0) 2025.04.28
CPU(NumPy) and GPU(CuPy and PyTorch) 성능 비교  (2) 2024.12.23