아날로그 컴퓨트 인 메모리(ACIM)는 더 나은 에너지 효율, 네트워크 정확도, 그리고 다양한 AI 모델과의 호환성을 추구하며 집중적으로 연구되어 왔다[1–5]. 특히 SRAM 기반 ACIM 매크로는 입력/가중치(IN/W) 배정을 비트 직렬 입력을 포함하도록 유연하게 구성하고, 여러 비트라인(BL)에 걸쳐 비트 단위 가중치를 로딩하며, 출력 라인(OL)에서 부분합의 디지털 시프트-앤-애드 곱셈(digital shift-and-add multiplication)인 부분합 을 수행한다. 그러나 시프트-앤-애드 곱셈은 필연적으로 ACIM에서 장치 불일치 및 제한된 센싱 마진(SM) 하에 컴퓨팅/판독 과정에서 발생하는 오차를 악화시킨다(그림 1). 그 결과 MAC 출력이 심각하게 잘못되며 상당한 정확도 손실이 발생하여, ACIM의 실용적 활용을 저해한다. Psum 오차를 완화하기 위해 고정밀 IN/W를 사용하고 MAC 출력에서 절단(truncation)을 수행하는 ACIM 매크로가 제안되었다[4]. 이러한 절단은 양자화 노이즈를 어느 정도 제거함으로써 완화된 정확도 손실을 달성한다. 그러나 선행 연구는 여전히 고해상도 ADC의 제한된 로 인해 오차를 겪는다. 또한 절단된 MAC 출력은 ACIM 매크로에서 가중치 업데이트가 빈번하게 일어나는 고정밀 IN/W의 장점을 훼손한다. 대안적 접근으로, 에 대해 양자화를 사용하는 저해상도 ADC를 활용하여 더 높은 를 확보하고 그에 따른 오차를 억제하는 방법이 제시되었다[5]. 하지만 매크로 활용도가 높은 경우, 양자화 오차로 인해 결국 정확도 손실을 겪으며, 이 오차는 시프트 및 가산기에 의해 증폭된다. 이러한 문제를 해결하기 위해 구동 강도 기반 SRAM 컴퓨트 인 메모리(DS-CIM) 매크로가 제안되었으며, 이는 다음을 포함한다: 1) 2’s-complement 4b-IN/W ResNet-20 벤치마크에서 최대 39.2x 증폭된 센싱 마진과 97%의 오류 없는 Psum 판독을 보장하는 적응형 동적 범위를 갖춘 6b 구동 강도-모드 센싱, 2) OL마다 동시 ADC 판독을 가능하게 하면서 면적 효율이 15.83 TOPS 인 행(row) 단위 적응형 동적 범위 SAR(ADR-SAR) 로직, 3) ResNet-20 벤치마크에서 평균 ADC 변환 사이클을 64% 감소시키는 입력 인지 이진 탐색(IABS), 그리고 4) 열(column) 단위 로직 재구성을 위한 이기종 로직 유닛(HLU).
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.