현대의 대규모 언어 모델(LLM)과 같은 응용프로그램은 높은 메모리 대역폭을 요구하며, 기존 메모리 장치만으로 이를 충족시키기는 어렵다. 메모리 대역폭의 부족은 호스트 프로세서와 메모리 간의 데이터 전송 시간을 증가시켜 성능 병목 현상을 초래한다. 이를 해결하기 위해 Processing in memory (PIM) 구조는 메모리 뱅크 근처에 연산 유닛을 배치하여 호스트의 작업을 분산시키고, DRAM 내부 대역폭을 활용한다. 본 논문에서는 DRAM 마이크로 아키텍처를 고려하여 실제로 개발된 PIM 장치 중 하나인 HBM-PIM의 동작을 심층 분석한다. 이를 바탕으로, HBM-PIM의 구조적 특성을 활용하여 하드웨어 변경 없이 수행할 수 있는 최적화 기법을 제안한다. PIM 명령어 순서와 데이터 매핑 방식을 조정하고, 메모리 배리어 배치를 최적화함으로써, DRAM 행 버퍼 충돌로 인한 지연시간을 최소화하고 HBM-PIM의 성능을 개선한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.