CLIP은 대조 학습을 통해 이미지 및 텍스트 임베딩을 정렬하며 강력한 제로샷 일반화 성능을 보인다. 그러나 대규모 아키텍처는 상당한 연산 및 메모리 자원을 필요로 하며, 이에 따라 이러한 능력을 경량 학생 모델로 증류하는 동기가 생긴다. 그럼에도 불구하고 기존의 CLIP 증류 방법들은 교사와 학생 임베딩 간의 다중 방향 관계 의존성을 명시적으로 모델링하지 않으며, 이로 인해 학생이 교사가 인코딩한 구조적 관계를 보존하는 능력이 제한된다. 이를 해결하기 위해 본 연구는 두 가지 새로운 방법인 수직 관계 증류(Vertical Relational Distillation, VRD)와 교차 관계 증류(Cross Relational Distillation, XRD)를 도입하는 관계 지식 증류 프레임워크를 제안한다. VRD는 분포 수준에서 모달리티 전반에 걸친 교사-학생 증류 강도의 일관성을 강제하는 반면, XRD는 교차 모달리티 교사-학생 유사도 분포에 대해 쌍방향 대칭성을 부과한다. 다중 방향 관계 구조를 공동으로 모델링함으로써 CLIP-RD는 학생 임베딩 기하를 교사의 기하와 충실하게 정렬하며, 기존 방법 대비 0.8%p 더 우수한 성능을 보인다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.