저순위 적응(LoRA)은 ≤ 1%의 학습 가능한 가중치 “델타(deltas)”를 추가하여 단일 대형 언어 모델(LLM)을 수천 개의 도메인 특화 전문가로 변환한다. 현행(실무 수준) 서비스 시스템은 여전히 호스트에서 GPU 메모리로 이러한 어댑터를 복사하여 제공하고 있으며, 그 결과 8–20 ms의 스왑 지연(latency)이 발생하고 데이터 이동에 따른 에너지가 낭비된다. 우리는 LoRA-PIM이라는 새로운 아키텍처를 제안하는데, 이는 처리-메모리(PIM) DRAM 내부에서 LoRA 델타와 기본 가중치를 결합한다. 각 감지 증폭기(sense-amplifier) 슬라이스는 8비트 마스크드 XOR/ADD 유닛을 포함하며, 추가 사이클 없이 현재 활성화된 행(row)에 양자화된 델타 뱅크들을 오버레이한다. 32nm eDRAM에서 시뮬레이션한 결과, LoRA-PIM은 어댑터 스위치 지연을 9.6ms(GPU + S-LoRA)에서 50μs로 감소시켰으며(-99.5%), 16개 작업(task)을 수행하는 Llama-2-7B에서 토큰당 에너지를 70% 절감하였다. 또한 뱅크 면적은 2%만 추가하면서도 모델 정확도를 보존한다. 우리의 결과는 메모리 내 델타 적용(in-memory delta application)이 확장 가능하고 에너지 효율적인 LLM 서빙으로 나아가는 유망한 경로임을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.