Generalized Contrastive Divergence: Joint Training of Energy-Based Model and Diffusion Model through Inverse Reinforcement Learning | 윤상웅 교수 연구실 | 울산과학기술원 인공지능대학원

|윤상웅 교수 연구실

홈

연구 영역

기본 정보

논문·특허

구성원

Preprint|

인용수 0

·2023

Generalized Contrastive Divergence: Joint Training of Energy-Based Model and Diffusion Model through Inverse Reinforcement Learning

Sangwoong Yoon, Dohyun Kwon, Himchan Hwang, Yung‐Kyun Noh, Frank C. Park

arXiv (Cornell University)

초록

본 연구에서는 에너지 기반 모델(EBM)과 샘플러를 동시에 학습하기 위한 새로운 목적함수인 일반화 대조발산(Generalized Contrastive Divergence, GCD)을 제시한다. GCD는 에너지 기반 모델을 학습하기 위한 널리 알려진 알고리즘인 대조발산(Contrastive Divergence, Hinton, 2002)을 마코프 연쇄 몬테카를로(Markov Chain Monte Carlo, MCMC) 분포 대신 확산 모델과 같은 학습 가능한 샘플러로 대체함으로써 일반화한다. GCD에서 EBM과 확산 모델의 동시 학습은 미니맥스(minimax) 문제로 정식화되며, 두 모델이 데이터 분포에 수렴할 때 평형에 도달한다. GCD에 의한 미니맥스 학습은 에너지에 음의 보상(negative reward)이 대응하고, 확산 모델이 정책(policy)이 되며, 실제 데이터가 전문가 시연(expert demonstrations)이 되는 역강화학습(inverse reinforcement learning)과 흥미로운 등가성을 보인다. 우리는 동시 학습이 EBM과 확산 모델 모두에 유익하다는 예비적이지만 유망한 결과를 제시한다. GCD는 MCMC 없이도 EBM 학습을 가능하게 하면서, 확산 모델의 샘플 품질을 향상시킨다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

MinimaxMarkov chain Monte CarloReinforcement learningApplied mathematicsComputer scienceInverseInverse problemDivergence (linguistics)DiffusionMathematical optimization

타입

Preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2312.03397

게재 연도

2023