주의 기반 Transformer 모델(예: GPT, BERT, LLaMA)의 등장은 자연어 처리(NLP) 분야에 혁신을 가져왔으며, 다양한 응용 전반에서 성능을 유의미하게 향상시켰다. 이러한 개선을 이끄는 핵심 요인 중 하나는 위치 임베딩(positional embeddings)의 사용으로, 이는 시퀀스 내 토큰 간의 문맥적 관계를 포착하는 데 중요하다. 그러나 기존 위치 임베딩 방법들은 특히 긴 시퀀스에서의 성능 오버헤드 관리와 인접 토큰 간의 관계를 효과적으로 포착하는 데 있어 어려움이 있다. 이에 대응하여, Rotary Positional Embedding(RoPE)는 긴 시퀀스에서도 모델 재학습(retraining) 없이 높은 정확도로 위치 정보를 임베딩할 수 있는 방법으로 부상하였다. 그럼에도 불구하고 RoPE는 추론(inference) 과정에서 상당한 성능 병목을 유발한다. 우리는 RoPE가 광범위한 데이터 이동과 실행 의존성으로 인해 GPU 실행 시간의 61%를 차지함을 관찰하였다. 본 논문에서는 Transformer 모델에서 RoPE 연산을 효율적으로 가속하기 위해 설계된 처리-메모리(Processing-In-Memory, PIM) 아키텍처인 RoPIM을 제안한다. RoPIM은 가속기 내에서 곱셈-덧셈(multiply-addition) 연산을 지원함으로써 칩 외(off-chip) 데이터 이동을 감소시키고, 병렬 데이터 재배열(parallel data rearrangement)을 통해 연산 의존성을 최소화하는 뱅크(bank) 수준 가속기를 활용하여 이를 달성한다. 또한 RoPIM은 뱅크 수준 및 로우(row) 수준 매핑(mapping)을 모두 활용하는 최적화된 데이터 매핑 전략을 제안하여, 병렬 실행을 가능하게 하고 뱅크 간 통신을 제거하며 DRAM 활성화(activations)를 감소시킨다. 실험 결과에 따르면 RoPIM은 기존 시스템과 비교하여 최대 307.9배의 성능 향상과 914.1배의 에너지 절감을 달성한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.