우리는 확산 생성 모델의 샘플 품질을 향상시키기 위한 최대 엔트로피 역강화학습(Improvement entropy inverse reinforcement learning, IRL) 접근법을 제시한다. 특히 생성 시간 단계 수가 적은 경우에 초점을 둔다. IRL이 전문가 시연으로부터 학습된 보상 함수에 기반하여 정책을 학습하는 방식과 유사하게, 우리는 학습 데이터를 통해 추정한 로그 확률 밀도를 사용하여 확산 모델을 학습(또는 미세조정)한다. 로그 밀도를 표현하기 위해 에너지 기반 모델(Energy-Based Model, EBM)을 사용하므로, 우리의 접근법은 확산 모델과 EBM의 공동 학습으로 귀결된다. Diffusion by Maximum Entropy IRL(DxMI)로 명명한 우리의 IRL 정식화는 두 모델이 데이터 분포에 수렴할 때 평형에 도달하는 미니맥스(minimax) 문제이다. 엔트로피 극대화는 DxMI에서 확산 모델의 탐색을 촉진하고 EBM의 수렴을 보장하는 데 핵심적인 역할을 한다. 또한 DxMI의 하위 루틴(subroutine)으로서 확산 모델을 위한 새로운 강화학습 알고리즘인 Diffusion by Dynamic Programming(DxDP)을 제안한다. DxDP는 시간을 통한 역전파(back-propagation)를 가치 함수(value function)로 대체하여 원래 문제를 최적 제어(optimal control) 정식화로 변환함으로써 DxMI에서의 확산 모델 업데이트를 효율적으로 만든다. 우리의 실험 연구에 따르면, DxMI를 사용해 미세조정한 확산 모델은 4단계와 10단계만으로도 고품질 샘플을 생성할 수 있다. 아울러 DxMI는 MCMC 없이 EBM을 학습할 수 있게 하여 EBM 학습 동역학을 안정화하고 이상 탐지(anomaly detection) 성능을 향상시킨다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.