[논문리뷰] ComKD-CLIP: Comprehensive Knowledge Distillation for ContrastiveLanguage-Image Pre-traning Model

ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model

Contrastive Language-Image Pre-training (CLIP) models excel in integrating semantic information between images and text through contrastive learning techniques. It has achieved remarkable performance in various multimodal tasks. However, the deployment of

arxiv.org

ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model

Abstract

대조적 언어-이미지 사전 학습(CLIP) 모델은 대조 학습 기법을 통해 이미지와 텍스트 간의 의미 정보를 효과적으로 통합하는 데 탁월한 성능을 보인다. 이 모델은 다양한 멀티모달 작업에서 뛰어난 성능을 발휘한다.

그러나 대형 CLIP 모델은 자원이 제한된 환경에서 배포가 어렵고, 작은 모델은 실용적인 응용을 위한 성능 기준을 충족하지 못하는 경우가 많다.

이에 따라 본 논문에서는 ComKD-CLIP이라는 새로운 접근 방식을 제안한다. 이는 대형 교사(CLIP) 모델의 지식을 작은 학생(CLIP) 모델에 포괄적으로 증류(Knowledge Distillation)하여, 성능을 유지하면서도 모델 크기를 대폭 줄이는 방법이다.

ComKD-CLIP은 두 가지 핵심 메커니즘으로 구성된다.

Image Feature Alignment (IFAlign) : 학생 모델이 교사 모델이 추출한 이미지 특징을 학습할 수 있도록, 학생 모델이 추출한 이미지 특징이 교사 모델의 특징과 밀접하게 정렬되도록 한다.
Educational Attention (EduAttention) : 교사 모델이 추출한 텍스트 특징과 학생 모델이 추출한 이미지 특징 간의 관계를 탐색하여, 학생 모델이 교사 모델이 어떻게 텍스트-이미지 특징을 통합하는지를 학습할 수 있도록 한다.

또한, ComKD-CLIP은 교사 모델의 텍스트-이미지 특징 융합 결과를 활용하여 IFAlign과 EduAttention을 통해 증류된 지식을 세밀하게 조정한다. 이를 통해 학생 모델이 교사의 지식을 보다 정확하게 흡수하도록 보장한다.

11개의 데이터셋에서 수행된 광범위한 실험 결과, 제안된 방법이 기존 방식보다 우수한 성능을 보인다는 것이 확인되었다.

Introduction

대조적 언어-이미지 사전 학습(CLIP) 모델(Radford et al., 2021)은 이미지와 텍스트 간의 의미적 정보를 효과적으로 통합하는 능력을 갖춘 대표적인 비전-언어 모델(VLM)로 자리 잡았다.

이러한 능력 덕분에 CLIP은 이미지 인식, 시각적 질문 응답, 이미지 설명 생성 등의 다양한 멀티모달 작업에서 뛰어난 성능을 보이고 있다 (Li et al., 2023a; Wei et al., 2022; Singh et al., 2022).

그러나 대형 CLIP 모델은 다음과 같은 문제점이 있다.

자원 제약 환경에서 배포가 어려움 :
- CLIP 모델은 일반적으로 대규모 데이터와 높은 연산량이 필요하므로, 계산 리소스가 제한된 환경에서는 사용하기 어렵다.
소형 CLIP 모델의 성능 부족:
- 작은 CLIP 모델은 연산량을 줄이는 대신 성능이 저하되는 경우가 많다.
- 따라서, CLIP 모델을 실제 응용에서 활용하는 데 어려움이 있다.

기존 연구 및 한계점

이러한 문제를 해결하기 위해 지식 증류(Knowledge Distillation, KD)가 CLIP 모델에 도입되었다.

CLIP-TD (Wang et al., 2022): CLIP 모델의 비전 및 언어 브랜치에서 지식을 증류하여 기존 비전-언어 작업에 활용
TinyCLIP (Wu et al., 2023): 대규모 모델을 활용한 유사도 학습(Affinity Mimicking) 및 가중치 상속(Weight Inheritance) 기법으로 소형 모델의 성능 향상
CLIPPING (Pei et al., 2023): 학생 모델을 중심으로 한 새로운 층 정렬(layer-wise alignment) 방식 도입
PromptKD (Li et al., 2024b): 라벨이 없는 데이터셋을 활용한 프롬프트 기반 지식 증류
CLIP-KD (Yang et al., 2024): 다양한 증류 기법을 활용하여 CLIP 모델의 효과적인 지식 증류 탐색

하지만 위의 연구들은 대부분 교사 모델의 텍스트-이미지 특징 융합 결과만을 바탕으로 지식을 증류하는 문제점이 있다.

즉, 융합 과정에서 내재된 중요한 지식을 학생 모델이 학습하지 못하는 한계가 있다.

제안하는 방법: ComKD-CLIP

이를 해결하기 위해, 우리는 교사 모델의 텍스트-이미지 특징 융합 과정에서 내재된 지식을 효과적으로 증류하는 방법을 제안한다.

이를 위해, ComKD-CLIP (Comprehensive Knowledge Distillation for CLIP)을 개발하였으며, 주요 구성 요소는 다음과 같다.

이미지 특징 정렬 (IFAlign) : 학생 모델이 교사 모델의 이미지 특징 추출 방식을 학습하도록 유도
교육적 어텐션 (EduAttention) : 학생 모델이 교사 모델의 텍스트-이미지 특징 융합 방식을 학습하도록 유도
증류된 지식 정제 (Refinement) : 교사 모델의 최종 특징 융합 결과를 이용하여, 학생 모델이 학습한 지식을 세밀하게 조정

주요 기여점

IFAlign 모듈을 제안하여 학생 모델이 교사 모델의 이미지 특징 추출 방법을 학습할 수 있도록 함
EduAttention 모듈을 제안하여 학생 모델이 교사 모델의 텍스트-이미지 특징 융합 방법을 학습할 수 있도록 함
교사 모델의 특징 융합 결과를 활용하여 증류된 지식을 정제하여, 학생 모델이 보다 정확하게 교사 모델의 지식을 학습하도록 함
11개의 데이터셋을 활용한 실험을 통해, 제안된 방법의 우수성을 검증

Related Work

Contrastive Language-Image Pre-training, CLIP

CLIP은 텍스트-이미지 데이터를 동시에 이해하고 융합할 수 있는 모델로, 멀티모달 작업에서 뛰어난 성능을 보여 왔다 (Gao et al., 2022; Zhu et al., 2023; Li et al., 2024a).

최근에는 CLIP 모델의 성능을 향상시키거나 다양한 활용도를 높이기 위한 연구가 활발히 진행되고 있다.

SLIP (Mu et al., 2022)
- CLIP과 자기 지도 학습(Self-Supervised Learning, SSL)을 결합하여 멀티태스킹 학습을 가능하게 함.
MaskCLIP (Dong et al., 2023)
- 마스킹된 자기 증류(Masked Self-Distillation) 기법을 활용하여 전체 이미지 표현을 부분 이미지 표현에 증류하는 방식 도입.
- 이를 통해 CLIP 모델의 성능을 향상시킴.
AttCLIP (Yang et al., 2023)
- 어텐션 메커니즘(Attention Mechanism)을 추가하여, 텍스트와 강하게 연관된 이미지 토큰에 초점을 맞춤.
- 이를 통해 멀티뷰 학습(Multi-view Learning)을 촉진하고 학습 시간을 단축함.
CLIP-Decoder (Ali & Khan, 2023)
- 텍스트와 이미지 각각의 특징을 별도의 인코더로 학습하여, CLIP의 멀티라벨 분류 성능을 크게 향상시킴.
MoPE-CLIP (Lin et al., 2024)
- 모듈 단위 가지치기(Module-wise Pruning) 오류 측정 방식을 제안하여, 교사 모델의 지식을 효과적으로 압축하는 방법 연구.
- 이를 통해 CLIP 모델의 사전 학습(Pre-training) 효율성을 극대화함.

이러한 연구들은 CLIP 모델이 멀티모달 작업에서 강력한 성능을 발휘할 수 있도록 기여해 왔다.

그러나 대형 CLIP 모델을 자원 제한 환경에서 효율적으로 활용하는 것은 여전히 해결해야 할 과제이며, 작은 모델의 성능 부족 역시 실질적인 한계로 작용하고 있다.

따라서, CLIP 모델을 경량화하면서도 성능을 유지하는 방법을 연구하는 것이 필수적이다.

Knowledge Distillation(KD)

지식 증류(KD)는 소형 학생 모델이 대형 교사 모델의 지식을 학습하여, 성능을 유지하면서도 경량화된 모델을 만들기 위한 기법이다.

이는 이미지 분할(Liu et al., 2019; Yang et al., 2022), 객체 탐지(Jia et al., 2024; Wang et al., 2024), 자세 추정(Li et al., 2021) 등의 다양한 비전 작업에서 성공적으로 활용되어 왔다.

최근에는 이러한 지식 증류(KD) 기법을 CLIP 모델에 적용하려는 시도가 증가하고 있다.

CLIPPING (Pei et al., 2023)
- 층 정렬(layer-wise alignment) 기법을 도입하여, 학생 모델이 교사 모델의 지식을 더 효과적으로 학습할 수 있도록 함.
PromptKD (Li et al., 2024b)
- 프롬프트 기반 지식 증류 방식을 활용하여, 라벨이 없는 데이터셋에서도 학생 모델의 성능을 향상시키는 방법 연구.
TinyCLIP (Wu et al., 2023)
- Affinity Mimicking(유사도 모방) 및 Weight Inheritance(가중치 상속) 기법을 활용하여, CLIP 모델의 크기를 줄이면서도 성능을 보존하는 방법 연구.

그러나 기존 연구들은 대부분 텍스트-이미지 특징 융합 결과만을 이용하여 지식을 증류하는 단점이 있다.

즉, 교사 모델이 텍스트와 이미지를 결합하는 과정에서 발생하는 중요한 지식을 학생 모델이 학습하지 못하는 문제가 있다.

이와 달리, 본 논문에서 제안하는 ComKD-CLIP은

✅ 텍스트-이미지 특징 융합 과정 자체에서 발생하는 중요한 정보를 증류하고,

✅ 교사 모델의 최종 융합 결과를 활용하여 증류된 지식을 세밀하게 조정함으로써,

기존 방법보다 더욱 효과적으로 학생 모델의 성능을 개선하는 것을 목표로 한다.

Approach

(a) 사전 학습된 대형 CLIP 교사 모델을 활용한 단서 학습(Cue Learning) 방법

(b) 소형 학생 CLIP 모델: 학습 가능한 단서(Learnable Cues)로 학습되며, 교사 모델의 텍스트 특징을 재사용하여 이미지 인코더 브랜치만 학습이 필요한 구조

(d) 학습이 완료된 학생 모델의 추론(Inference) 과정: 텍스트 인코더 브랜치는 교사 모델의 텍스트 특징을 재사용

(e) EduAttention 모듈의 개략적인 구조(Schematic)

Preliminaries

CLIP은 가장 널리 사용되는 비전-언어 모델(VLM) 중 하나로, 독립적인 이미지 인코더와 텍스트 인코더로 구성된다.

이 두 인코더를 사용하여 이미지와 텍스트를 정렬(alignment)하고 융합(fusion)하여, Joint Multimodal Embedding Space을 학습한다.

이미지 인코딩 과정

텍스트 인코딩 과정

각 이미지에 대응하는 클래스 이름이 있는 경우,

텍스트 인코더는 “a photo of {class}” 와 같은 프롬프트 템플릿을 이용하여 텍스트 임베딩을 생성한다.

여기서 N 은 클래스 개수, d 는 특징 벡터 차원이다.

참고 : 📌 L2 norm 정규화

L2 노름은 벡터의 크기(길이)를 정규화하는 데 자주 사용됩니다.
특히 CLIP 같은 모델에서는 특징 벡터를 유닛 벡터(단위 벡터, norm=1)로 정규화하는 과정에서 L2 노름을 활용합니다.

즉, CLIP에서는 이미지 및 텍스트 임베딩을 동일한 스케일로 맞추기 위해, 아래와 같이 정규화합니다.

이렇게 하면:

유클리드 거리(Euclidean Distance) 대신 Cosine Similarity 를 활용할 수 있음.
특징 벡터의 크기를 일정하게 유지하여 학습 안정성 향상.

분류 확률 계산

위 정보를 활용하여 이미지와 텍스트 간의 유사도 점수(logits)를 기반으로 다음과 같은 확률을 계산할 수 있다.

여기서 τ는 temperature parameter 로, 확률 분포를 조절하는 역할을 한다.

Pipline

그림 2에서 보여주듯이, 우리가 제안하는 ComKD-CLIP 프레임워크는 두 가지 주요 단계로 구성됩니다.

대형 CLIP 교사 모델의 사전 학습(Pretraining)
소형 CLIP 학생 모델의 후속 학습(Training)

Large CLIP teacher model 사전 학습

초기 단계(그림 2(a))에서, 대형 CLIP 교사 모델은 라벨이 있는 도메인 데이터셋 \(D_{\text{labeled}} = \{ (x_i, y_i) \mid i = 1, 2, \dots, M \}\) 에 대해 사전 학습됩니다.

이 과정은 PromptSRC (Khattak et al., 2023b) 및 PromptKD (Li et al., 2024b) 와 같은 최신 기법과 일치하는 방식으로 진행됩니다.

특히, 우리는 학습 가능한 프롬프트(learnable prompts) 를 이미지 및 텍스트 인코더 브랜치 모두에 결합하는 전략을 도입하였습니다.

이를 통해, 라벨이 있는 도메인 데이터셋의 이미지 및 텍스트 데이터를 각각

이미지 인코더 \(f_V^t\)와 텍스트 인코더 \(f_T^t\)에 입력하여 처리합니다.

이 과정을 거치면:

이미지 특징 \(u_t^p \in \mathbb{R}^{d}\) 가 생성되고
텍스트 특징 \(w_t^p \in \mathbb{R}^{d}\) 가 생성됩니다.

Teacher model 의 최종 출력 계산

교사 모델의 최종 출력 로짓(logits) \(q_t\) 는 식 (1) 을 통해 계산됩니다.

교사 모델의 학습 과정에서는 예측된 확률 분포와 실제 라벨 간의 크로스 엔트로피 손실(Cross-Entropy Loss)을 최소화하여 모델의 매개변수를 최적화합니다.

이러한 엄격한 사전 학습 과정을 거친 교사 모델은, 이후 학생 모델에 효과적으로 지식을 증류(Knowledge Distillation)할 수 있는 강력한 지식을 확보하게 됩니다.

그림 2(b)에 나타난 것처럼, 학생 CLIP 모델(Student CLIP Model) 은 교사 모델(Teacher Model)에서 사전 학습된 텍스트 특징을 직접 활용하여, 텍스트 인코더(Text Encoder) 부분의 학습 비용을 대폭 절감합니다. 동시에, 경량화된 CLIP 이미지 인코더(Image Encoder) 브랜치를 학생 모델에 도입하여, 자원 사용량을 줄이면서도 경쟁력 있는 성능을 유지할 수 있도록 설계되었습니다.

1️⃣ IFAlign

학생 모델은 라벨이 없는 도메인 데이터셋 \(D_{\text{unlabeled}}\) 을 입력으로 받아 학습합니다.
이 과정에서, 우리는 IFAlign(Image Feature Alignment) 모듈을 도입합니다.
IFAlign 모듈은 학생 모델이 생성한 이미지 특징 \(u_s^p∈R^d\) 를교사 모델이 생성한 이미지 특징 \(u_t^p∈R^d\) 와 정렬하도록 합니다.
이를 통해, 학생 모델이 교사 모델의 이미지 특징 추출 방법을 학습할 수 있도록 유도합니다.

2️⃣ EduAttention

이미지 특징 정렬(IFAlign) 후에는, EduAttention(Educational Attention) 모듈이 적용됩니다.
이 모듈은:
- 학생 모델이 추출한 이미지 특징과
- 교사 모델이 제공한 텍스트 특징간의 관계를 탐색합니다.
이를 통해, 교사 모델이 텍스트와 이미지 특징을 어떻게 통합하는지(student model이 학습할 수 있도록) 분석하게 됩니다.

3️⃣ KL Divergence 기반 최적화

마지막으로, KL Divergence 손실 함수를 사용하여:
- 교사 모델과 학생 모델의 로짓(logits) 분포 간 차이를 최소화합니다.
- 이를 통해, 학생 모델이 교사 모델과 유사한 예측을 하도록 최적화합니다.

이 과정에서 증류된 지식이 더욱 정교하게 조정되며,

결과적으로 학생 모델이 교사 모델의 지식을 보다 정확하게 흡수할 수 있도록 돕습니다.

4️⃣ 최종 추론 과정

그림 2(d)에는 학습이 완료된 학생 모델의 최종 추론(inference) 과정이 나타나 있습니다.
이 단계에서는, 학생 모델이 교사 모델에서 증류된 지식을 바탕으로 예측을 수행합니다.

📌 요약

✔ 학생 CLIP 모델은 교사 모델의 텍스트 특징을 직접 활용하여 학습 비용을 절감.

✔ IFAlign 모듈을 사용해 학생 모델이 교사 모델의 이미지 특징 추출 방법을 학습하도록 유도.

✔ EduAttention 모듈을 적용하여 텍스트-이미지 특징 통합 방법을 학습하도록 함.

✔ KL Divergence를 통해 학생 모델과 교사 모델의 예측 차이를 최소화하여 학습 최적화.

✔ 최종적으로, 학생 모델이 교사 모델의 지식을 정확하게 학습하고, 추론 과정에서 적용 가능하도록 만듦. 🚀

ComKD-CLIP

IFAlign

그림 2(c)에 나타난 IFAlign 모듈은, 학생 모델(Student Model)이 추출한 이미지 특징이 교사 모델(Teacher Model)이 추출한 이미지 특징과 최대한 유사하도록 정렬하는 역할을 합니다.

이를 위해, 우리는 추출된 특징의 평균(mean)과 분산(variance) 통계를 정렬(alignment)하는 방식을 사용합니다.

해당 정렬 과정은 다음과 같은 수식으로 표현될 수 있습니다.

정렬 과정에서는 L1 손실 (L1 Loss) 을 활용하여 학생 모델과 교사 모델의 평균 및 분산을 맞추도록 유도 합니다. 이를 통해, 학생 모델이 교사 모델이 이미지 특징을 추출하는 방식을 학습하도록 유도 합니다.

평균과 분산을 모두 정렬하여, 학생 모델이 교사 모델의 특징 추출 방법을 온전히 학습할 수 있도록 함.

📌 요약

✔ IFAlign 모듈은 학생 모델이 교사 모델의 이미지 특징을 학습하도록 돕는 과정

✔ 평균(mean)과 분산(variance) 정렬을 통해 두 모델의 특징이 최대한 유사하도록 맞춤

✔ L1 손실(L1 Loss) 을 사용하여 정렬 과정을 최적화

✔ 학습 가능한 프로젝터(Learnable Projector) 를 활용해 특징 차원을 효과적으로 조정

✔ 최종적으로, 학생 모델이 교사 모델의 이미지 특징 추출 방법을 보다 정확하게 학습하도록 함.

EduAttention

EduAttention 모듈은 학생 모델이 교사 모델의 텍스트-이미지 융합 방식을 학습하도록 유도한다.

이 과정에서는 어텐션 메커니즘을 활용하여 두 가지 특징 간의 관계를 학습한다.

목적:

어텐션 메커니즘을 활용하여 학생 모델의 이미지 특징과 교사 모델의 텍스트 특징 간 관계를 탐색
학생 모델이 교사 모델의 텍스트-이미지 통합 전략을 학습하도록 유도

📌 계산 과정:

Query, Key, Value 행렬 생성 (Fully Connected Layer 적용)
- \(Q = F_C(w^p_t), \quad K = F_C(u^p_s), \quad V = F_C(u^p_s)\)
- \(w^p_t\) (교사 모델의 텍스트 특징) → Query로 변환
- \(u^p_s\) (학생 모델의 이미지 특징) → Key 및 Value로 변환
어텐션 가중치 계산 (Scaled Dot-Product Attention)
- \(f_{\text{att}} = \text{Softmax} \left( \frac{QK^T}{\sqrt{C}} \right) \cdot V\)
- \(f_{\text{att}}\) : 텍스트-이미지 특징 간 관계를 나타내는 벡터
- C : 하이퍼파라미터 (Key 차원 수)
학생 모델의 최종 이미지 특징 계산
- \(f_e = u^p_s + \alpha \cdot f_{\text{att}}\)
- 학습 가능한 가중치 \(\alpha\) 를 적용
- 초기값은 0으로 설정, 학습을 통해 점진적으로 조정

Distilled Knowledge Refinement

목적:

학생 모델이 교사 모델의 특징 추출 및 융합 방식을 학습한 후, 이를 정제하여 최적의 성능을 확보
KL Divergence를 사용하여 학생 모델과 교사 모델의 특징 분포를 정렬

📌 계산 과정:

KL Divergence를 활용한 정렬 손실
- \(L_{\text{stu}} = L_{\text{kd}}(q^t, q^s, \tau)\)
- \(q^t\): 교사 모델의 예측 로짓(Logits)
- \(q^s\): 학생 모델의 예측 로짓
- KL Divergence를 최소화하여 두 분포를 일치
- \(\tau\): 온도 매개변수 (분포를 부드럽게 조정)
최종 손실 함수 정의
- \(L_{\text{final}} = L_{\text{stu}} + L_{\text{align}}\)
- \(L_{\text{stu}}\) : KL Divergence 기반 학생 모델 정렬 손실
- \(L_{\text{align}}\) : EduAttention 및 IFAlign을 통한 특징 정렬 손실
- 학생 모델을 최적화하기 위해 두 손실을 합산하여 최종 손실로 설정

📌 최종 요약

✔ EduAttention: 학생 모델이 교사 모델의 텍스트-이미지 특징 통합 방식을 학습하도록 유도
✔ Fully Connected Layer 를 사용하여 Query, Key, Value 행렬을 변환 후 어텐션 연산 수행
✔ 어텐션 결과를 학습 가능한 가중치 \(\alpha\) 와 결합하여 최종 이미지 특징을 생성
✔ Distilled Knowledge Refinement: KL Divergence를 사용하여 학생 모델이 교사 모델의 특징 분포를 정렬
✔ 최종 손실 함수는 \(L_{\text{final}} = L_{\text{stu}} + L_{\text{align}}\) 로 정의하여 학생 모델을 최적화

Experiments

Table 1: We compare base-to-novel generalization capabilities with current state-of-the-art methods.

우리는 최신 기술(State-of-the-Art, SOTA) 방법들과의 Base-to-Novel 일반화 성능을 비교하였습니다.

제안된 ComKD-CLIP 프레임워크는 11개의 인식(Recognition) 데이터셋에서 뛰어난 일반화 성능을 보여줍니다.

특히, CLIP 모델의 ViT-B/16 이미지 인코더를 사용하여 실험을 수행하였습니다.

표에서 Δ\DeltaΔ 기호는 기존 SOTA 방법인 PromptKD 대비 성능 향상 정도를 나타냅니다.

Settings

Datasets

본 연구에서는 PromptSRC (Khattak et al., 2023b) 및 PromptKD (Li et al., 2024b)에서 사용된 방법론을 따르며,

기본(Base) 클래스에서 새로운(Novel) 클래스로의 일반화 성능과 교차 데이터셋 평가를 수행하였다.

다음과 같은 11개 이미지 분류 데이터셋을 사용하여 실험을 진행했다.

일반 객체 인식
- ImageNet (Deng et al., 2009)
- Caltech101 (Fei-Fei et al., 2004)
세밀한 분류(Fine-grained Classification)
- OxfordPets (Parkhi et al., 2012)
- StanfordCars (Krause et al., 2013)
- Flowers102 (Nilsback & Zisserman, 2008)
- Food101 (Bossard et al., 2014)
- FGVCAircraft (Maji et al., 2013)
장면(Scene) 인식
- SUN397 (Xiao et al., 2010)
행동(Action) 인식
- UCF101 (Soomro et al., 2012)
텍스처(Texture) 분류
- DTD (Cimpoi et al., 2014)
위성 영상(Satellite Image) 분류
- EuroSAT (Helber et al., 2019)

또한 도메인 일반화(Domain Generalization) 평가를 위해,

ImageNet (Deng et al., 2009)을 기본 소스 데이터셋으로 활용하고,

이와 다른 환경에서 촬영된 ImageNet-A, ImageNet-R, ImageNet-Sketch, ImageNet-V2 등의 OOD(Out-of-Distribution) 테스트 데이터셋에서 평가를 수행하였다.

Implementation Details

교사 모델(Teacher Model): ViT-L/14 기반 CLIP 모델
학생 모델(Student Model): ViT-B/16 기반 CLIP 모델
프롬프트 깊이 (Prompt Depth): 9
비전 및 언어 프롬프트 길이: 4
최적화 알고리즘: SGD (Stochastic Gradient Descent)
온도 매개변수(Temperature Parameter, τ): 기본값 1
프롬프트 초기화:
- "a photo of a {classname}" 문장을 사용하여 텍스트 프롬프트 초기값 설정
평가 지표:
- 기본(Base) 클래스와 새로운(Novel) 클래스에 대한 평균 정확도(Harmonic Mean, HM) 측정
- 3회 반복 실험 후 평균값 보고
실험 환경:
- NVIDIA A100 GPU 1장 사용

Base-to-Novel Generalization

기존 연구들 **(Zhou et al., 2022a; Khattak et al., 2023a; Khattak et al., 2023b; Li et al., 2024b)**에서 사용한 방식에 따라,

학습 데이터셋을 기본(Base) 클래스와 새로운(Novel) 클래스로 나누어 실험을 진행했다.

교사 모델: PromptSRC 방식으로 사전 학습된 대형 CLIP 모델
학생 모델: 교사 모델의 지식을 증류한 후, 성능 평가

비교 대상 방법

기존 최첨단(SOTA) 모델과 성능을 비교했다.

CLIP (Radford et al., 2021)
CoOp (Zhou et al., 2022b)
CoCoOp (Zhou et al., 2022a)
MaPLe (Khattak et al., 2023a)
PromptSRC (Khattak et al., 2023b)
PromptKD (Li et al., 2024b)

✅ 결과 분석:

ComKD-CLIP은 11개 데이터셋 중 8개에서 기존 방법보다 뛰어난 성능을 보였다.
특히 FGVCAircraft, EuroSAT, StanfordCars 데이터셋에서 큰 성능 향상이 확인되었다.

Cross-dataset Evaluation

*PromptKD (Li et al., 2024b)**와 동일한 방식으로 실험을 수행했다.

교사 모델을 ImageNet 데이터셋에서 사전 학습
학생 모델을 라벨이 없는 타겟 데이터셋에서 학습
데이터셋 별 테스트 세트에서 성능 평가

✅ 결과 분석:

ComKD-CLIP은 10개 데이터셋 중 8개에서 기존 방법보다 뛰어난 성능을 보였다.
평균적으로 0.74% 향상된 성능을 기록함.

Domain Generalization Experiments

ImageNet에서 학습한 모델이 Out-of-Distribution(OOD) 데이터셋에서도 잘 일반화할 수 있는지 평가했다.

✅ 결과 분석:

ComKD-CLIP은 ImageNetV2, ImageNet-Sketch, ImageNet-A에서 기존 방법보다 높은 성능을 기록.
평균적으로 1.31% 성능 향상을 보임.

Ablation Study (IFAlign & EduAttention의 효과 분석)

ComKD-CLIP의 IFAlign(이미지 특징 정렬) 및 EduAttention(교육적 어텐션) 모듈이 모델 성능에 미치는 영향을 분석했다.

실험 방법

IFAlign 모듈 제거 → 성능 확인
EduAttention 모듈 제거 → 성능 확인
두 모듈 모두 제거 → 성능 확인

✅ 결과 분석:

IFAlign 모듈을 제거하면 성능이 크게 감소
EduAttention 모듈을 제거하면 성능이 감소
두 모듈을 모두 제거하면 성능이 가장 낮아짐➡️ IFAlign과 EduAttention이 학생 모델이 교사 모델의 지식을 효과적으로 학습하는 데 필수적인 역할을 한다는 것이 확인됨

IFAlign 정렬 전략 비교 (Alignment Strategy in IFAlign)

IFAlign에서 어떤 정렬 방식이 가장 효과적인지 실험했다.

✅ 비교한 정렬 방식

Lalign_mean: 평균(mean)만 정렬
Lalign_var: 분산(variance)만 정렬
Lalign (평균 + 분산 정렬)

➡️ 결과: 평균과 분산을 함께 정렬하는 Lalign 전략이 가장 높은 성능을 기록함.

증류 지식 정제 방법 비교 (Knowledge Refinement Method)

EduAttention과 IFAlign을 통해 증류된 지식을 어떤 방식으로 정제하는 것이 가장 효과적인지 비교 실험했다.

✅ 비교한 정제 방법

L1 손실
MSE 손실 (Mean Squared Error)
KL Divergence 손실

➡️ 결과: KL Divergence를 활용한 정제 방식이 가장 높은 성능을 기록.

➡️ 학생 모델이 교사 모델의 로짓을 더 효과적으로 학습하도록 유도하는 것이 핵심적인 요소임.

Conclusion

본 연구에서는 ComKD-CLIP이라는 새로운 지식 증류(knowledge distillation) 프레임워크를 제안하였다.

이는 대형 CLIP 교사 모델의 지식을 소형 CLIP 학생 모델에 효과적으로 증류하여,

모델 크기를 대폭 줄이면서도 성능을 유지하는 방법을 제공한다.

ComKD-CLIP의 핵심은 다음과 같다.

IFAlign (이미지 특징 정렬)
- 학생 모델이 교사 모델의 이미지 특징 추출 방식을 학습하도록 유도한다.
EduAttention (교육적 어텐션)
- 학생 모델이 교사 모델의 텍스트-이미지 특징 융합 방식을 학습하도록 유도한다.
증류된 지식 정제 (Refinement)
- 교사 모델의 텍스트-이미지 특징 융합 결과를 활용하여, 학생 모델이 학습한 지식을 세밀하게 조정한다.

연구 성과

✅ 11개의 다양한 데이터셋에서 실험을 수행하여, ComKD-CLIP이 기존 최첨단(SOTA) 방법들보다 우수한 성능을 보임을 검증하였다.

✅ 소형 CLIP 모델이 제한된 자원 환경에서도 활용될 수 있도록 성능을 크게 개선하였다.

✅ IFAlign 및 EduAttention이 모델의 성능 향상에 중요한 역할을 한다는 점을 실험적으로 증명하였다.

본 연구는 멀티모달 모델 경량화 및 지식 증류 분야에서 중요한 발전을 이루었다고 볼 수 있으며,

향후 CLIP 모델을 포함한 대형 비전-언어 모델을 경량화하여 실용적으로 적용하는 연구에 기여할 것으로 기대된다.

향후 연구 방향

✅ 더 다양한 CLIP 변형 모델(ViT-L/14 이외의 모델)로 실험 확장

✅ 도메인 적응(domain adaptation) 및 저자원 환경에서의 추가 검증

✅ 학습 효율성을 더 개선하는 새로운 증류 전략 탐색

🎯 결론 요약

ComKD-CLIP은 CLIP 모델의 성능을 유지하면서도 경량화할 수 있는 효과적인 지식 증류 방법이다.
IFAlign과 EduAttention 모듈을 도입하여 학생 모델이 교사 모델의 학습 과정을 더 깊이 학습하도록 유도하였다.
11개 데이터셋에서 기존 최첨단(SOTA) 방법보다 우수한 성능을 기록하며, 실용적인 가능성을 입증하였다.

저작자표시 비영리 변경금지

'AI > 아이펠_리서치' 카테고리의 다른 글

[논문리뷰] Segment Anything (0)	2025.02.18
[논문리뷰] Masked Autoencoders Are Scalable Vision Learners (1)	2025.02.14
Transformer 를 사용한 seq2seq 모델 실습 (6)	2024.11.27
Transformer Decoder 구현 및 학습 (1)	2024.11.26
Transformer Encoder 구현 및 학습 (3)	2024.11.25

GUGA 의 Time machine

[논문리뷰] ComKD-CLIP: Comprehensive Knowledge Distillation for ContrastiveLanguage-Image Pre-traning Model

ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model

Abstract

Introduction

Related Work