관심 구조 보존형 지식 전이와 KV 캐시 압축

Attention-Structure-Preserving Knowledge Transfer and KV Cache Compression

연구 내용

어텐션 계층·관계 구조를 분해·직교화하여 압축하고, KV cache를 확률적 분포로 압축해 장문 추론 효율을 높이는 연구

트랜스포머 기반 모델의 효율화를 위해 지식 전이 과정에서 어텐션의 다중 과립 정보를 보존하는 구조를 연구합니다. SHARP에서는 토큰·헤드·레이어 수준의 어텐션 표현을 분해하고 각 표현을 독립적인 직교 부분공간으로 투영한 뒤 증류하여 과립 간 표현 간섭을 줄입니다. CLIP-RD에서는 멀티모달 임베딩의 교차 관계를 상대적 분포 관점에서 정렬하며, 모달 간 유사도 관계를 대칭적으로 보존하는 방식으로 학생 모델의 임베딩 기하를 유지합니다. 또한 장문 추론에서는 KV cache의 토큰 선택이 아니라 attention 분포 압축 관점에서 확률적 재구성 가능한 계층적 인코딩을 적용하여 메모리 사용과 성능 저하의 균형을 달성합니다.

관련 프로젝트

0건

연구 흐름

증류 기반 압축 연구는 2026년을 중심으로 다중 과립 어텐션 구조를 분해하는 SHARP로 확장되었습니다. 이후 같은 해 멀티모달 임베딩에서 교차 관계를 상대 분포로 모델링하는 CLIP-RD를 제안하여 관계 구조 보존을 강화했습니다. 동시에 장문 생성에서 KV cache 메모리 병목을 해결하기 위해 QubitCache에서 주어진 attention 분포를 확률적 계층 인코딩으로 압축하고, 디코딩 단계에서의 질의 비의존성을 유지하는 설계를 수행했습니다. 그 결과 증류와 KV 압축을 하나의 ‘구조 보존’ 관점에서 연결하는 연구 궤적을 형성했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

멀티그레인 어텐션 기반 LLM 증류
직교 부분공간 투영형 압축
멀티모달 임베딩 기하 보존 증류
관계 기반 상대 분포 정렬
KV cache 메모리 절감
장문 생성 추론 경량화
확률적 attention 재구성
저비용 모델 배포를 위한 압축
검색·추천 임베딩 경량화
장문 QA 서비스 운영 효율화