떠오르는 트랜스포머는 낮은 데이터 국소성과 대용량 데이터 크기 때문에 메모리 병목 현상을 겪고 있으며, 이 병목을 극복하기 위해 메모리 내부에서 연산을 수행하는 처리-내-메모리(Processing in Memory, PIM)를 적극적으로 연구하고 있다. 그러나 모델의 매개변수가 커질수록 PIM 장치 하나만으로는 제한된 메모리 용량과 연산 자원 때문에 부족해진다. 본 논문에서는 PCIe 기반 다중 PIM 플랫폼에서 PIM 간 저오버헤드 데이터 통신 방법을 개발한다. 우리는 CPU와 PIM 간의 중복 데이터 이동을 제거하기 위해 XDMA 기반 PIM-대-PIM(P2P) 직접 데이터 통신 메커니즘을 채택한다. 그 결과, P2P는 각각 16MB, 32MB, 64MB, 128MB 데이터를 전송할 때, 시스템 메모리를 버퍼로 사용하는 DMA에 비해 1.69배, 1.70배, 1.61배, 1.63배의 속도 향상을 달성한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.