지식 증류(knowledge distillation)는 대규모 언어 모델을 배포 가능한 더 작은 형태로 압축하기 위한 핵심 기법으로 부상하였다. 기존 접근법은 토큰, 구(phrase), 시퀀스와 같은 길이 기반 언어 단위 수준에서 지식을 전달하는 데 초점을 맞추고 있으나, 현대 트랜스포머 아키텍처의 본질적인 계층적 어텐션 메커니즘을 충분히 포착하지 못하는 경우가 많다. 또한 여러 단위 수준이 하나의 표현 공간을 공유할 때, 동일한 용량(capacity)을 두고 경쟁하게 되어 상호 보완적 정보가 소실된다. 우리는 이러한 현상을 표현 붕괴(representation collapse)라고 명명한다. 이 한계를 해결하기 위해, 우리는 SHARP(Structured Hierarchical Attention Rank Projection)를 제안한다. SHARP는 어텐션 패턴을 토큰 수준, 헤드(head) 수준, 레이어(layer) 수준의 표현으로 분해하고, 각 표현을 증류 이전에 전용의 직교(orthogonal) 부분공간에 사영(project)하는 새로운 증류 프레임워크이다. 이러한 수학적 분해는 각 단위 수준에 독립적인 표현 용량을 부여하여 간섭을 방지하는 동시에 병렬 최적화 경로를 가능하게 한다. 교사 모델의 파라미터 규모가 350M에서 6.7B에 이르는 상황에서, NLG(자연어 생성) 및 NLU(자연어 이해) 과제 전반에 대해 125M 파라미터 학생 모델로 증류하는 대규모 실험을 수행한 결과, SHARP는 기존 증류 방법을 일관되게 능가하였다. SHARP는 NLG 과제에서 가장 강력한 기준선 대비 평균 5.2%의 퍼플렉서티(perplexity) 감소를 달성하였으며, 6.7B 교사 구성에서는 그 개선 폭이 7.8%까지 도달하였다. NLU 과제에서는 모든 모델 규모에 걸쳐 1.5~3.2%의 일관된 정확도 향상을 보였다. 이러한 결과는 직교 용량 할당이 대규모 언어 모델 압축에서 다중 단위 수준 지식 전달을 위한 효과적인 원리임을 확인해준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.