다양한 딥러닝(DL) 응용에서 널리 사용되는 임베딩 레이어는 규모가 매우 크며, 그 크기는 계속 증가하고 있다. 우리는 대규모 임베딩 레이어를 갖는 DL 응용의 추론을 처리하기 위한 확장 가능한 임베딩 메모리 시스템(SEMS)을 제안한다. SEMS는 가속을 위한 FPGA를 포함하는 확장 가능한 임베딩 메모리(SEM) 모듈을 기반으로 구축된다. SEMS에서는 확장 가능하고 범용적인 PCIe 버스를 사용하여 시스템 메모리를 확장하며, SEM으로부터 호스트로 전송되는 데이터의 양을 줄이는 SEM의 처리는 PCIe의 유효 대역폭을 향상시킨다. 더 나은 성능을 달성하기 위해, 다양한 수준에서 여러 최적화 기법을 적용한다. 우리는 SEMS를 사용하는 데 편의를 제공하기 위한 Python 라이브러리인 SEMlib를 개발한다. 또한 SEMS의 개념 증명(proof-of-concept) 프로토타입을 구현하였으며, SEMS를 사용하면 전체 임베딩 레이어를 보유할 DRAM이 부족한 경우 CPU 기반 시스템에 비해 DLRM 실행 시간이 더 빠르다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.