딥러닝은 언어 모델링, 컴퓨터 비전, 추천 시스템, 로보틱스 등 광범위한 응용 분야에서 괄목할 만한 성과를 이뤘다. 그러나 모델의 크기가 점차 커지고 연산 요구가 증가함에 따라, 특히 자원이 제한된 기기에서는 상당한 과제가 제기되고 있다. 이러한 문제를 해결하기 위한 유망한 접근법 중 하나는 극단적 양자화(extreme quantization)이며, 이는 이진 및 삼진 신경망(binary and ternary neural networks)으로 대표된다. 이러한 기법은 가중치와 활성값을 각각 1 bit 또는 1.58 bits로 양자화함으로써 모델 크기를 크게 줄이는 동시에 연산을 단순화하여, 자원이 제한된 환경에서의 효율적인 배치에 적합하다. 본 논문은 극단적 양자화 기법에 대한 포괄적인 문헌 검토를 제시하며, 이를 세 가지 핵심 영역으로 구성한다. (1) 가중치만 양자화하는 경우(예: 이진 가중치 네트워크, 삼진 가중치 네트워크)와 가중치 및 활성값을 모두 양자화하는 경우(예: 이진 신경망, 삼진 신경망)를 비교 분석하고, 각 접근법의 진전과 상충관계를 논의한다. (2) 초기에는 합성곱 신경망에 적용되었던 극단적 양자화가 트랜스포머(Transformer) 아키텍처로 어떻게 확장되었는지를 고찰한다. (3) 이진화 및 삼진화에 최적화된 연산-메모리(compute-in-memory) 아키텍처에 대한 개요를 제공하며, 고급 비트-셀 기술을 기반으로 한 설계들을 포함한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.