대규모 언어 모델(LLM)의 규모가 지속적으로 커지면서 효율성 향상이 요구되고 있으며, BF16보다 완전 양자화 학습(FQT)이 선호되고 있다. FQT는 학습을 가속하지만, 일관성 문제에 직면하며 안정성을 보장하기 위해 각 경우마다 200B 토큰이 넘는 방대한 탐색(지수적으로 많은 경우에 대한 탐색)을 필요로 한다. 의사(가상) 양자화 학습(PQT)은 FQT의 문제를 해결하지만, 그에 대한 연구는 충분히 이루어지지 않았다. 본 연구에서는 PQT의 실제적 함의를 상세히 탐색하고, 확률정밀도( stochastic precision) 어닐링을 포함한 이상적 특성을 갖추면서도 부동소수점(FP)에 친화적인 노이즈 분포 을 제안한다. 그 결과, 제안된 방법은 덧셈 후 이어지는 FP 캐스팅을 통해 효율적인 가짜 양자화를 활용함으로써 PQT를 통한 저정밀 FP 파라미터에 대한 효과적인 이론적 토대를 제공한다. 우리는 가우시안 가중치 샘플링이 (1) 확장성이 있음을 보이며, BF16 연산자에서 최대 9비트의 고정밀 노이즈까지 지원하면서 FP6까지의 저정밀 FP 파라미터를 가능하게 한다. 제안된 방법은 (2) 효율적이다: A100 GPU에서 Llama2 학습 토큰 초당 처리량 기준으로 계산 오버헤드를 1.40\%까지 낮게 수반하며, GPU 메모리에서는 파라미터당 2바이트가 필요하다. 또한 우리는 가우시안 가중치 샘플링을 사용한 PQT가 (3) 안정적임을 입증한다. 즉, 최대 1B 파라미터와 300B 토큰으로 GPT2 및 Llama2 모델을 사전학습할 때 BF16 기준선의 성능을 면밀히 추종하거나 심지어 능가한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.