주의 메커니즘 기반 모델은 NLP 작업에 대해 충분히 정확한 성능을 제공한다. 그러나 모델의 크기가 커질수록 메모리 사용량은 기하급수적으로 증가한다. 또한, 낮은 국소성을 갖는 대량의 데이터는 데이터 이동(data movement) 과정에서 전력 소비를 과도하게 증가시킨다. 따라서 메모리 내/주변에 연산 로직을 배치하는 Processing-in-Memory(PIM)는 시스템 성능의 메모리 병목을 해결하기 위한 매력적인 해결책으로 부상하고 있다. 한편, PIM 아키텍처에 대한 다양한 설계 탐색이 연구되어 왔으나, 이에 대한 효율적인 소프트웨어 프레임워크는 드물게 수행되었다. 본 논문은 PIM 기반 플랫폼을 위해 ONNX 런타임 프레임워크를 확장한다. 이 프레임워크는 다양한 PIM 연산을 위한 기능 추상화를 제공하며, 사용자에게 손쉬운 프로그래밍 가능성을 제공한다. 우리는 프레임워크를 사용하여 GLUE 데이터셋으로 BERT 워크로드를 실행하였으며, 해당 워크로드는 주의(attention) 기반 모델들 가운데서 지배적으로 사용된다. 데이터/뱅크 수준 병렬성(data/bank-level parallelism)을 활용하고 각 뱅크에서 벡터 실행을 수행함으로써, 우리의 기준(baseline) PIM 플랫폼은 각각 x86 및 ARM CPU에 비해 평균적으로 x1.64 및 x1.71의 속도 향상을 보였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.