최근의 텍스트-투-3D 생성 기술 발전은 3D 콘텐츠 제작의 자동화와 대중화를 크게 촉진해 왔다. 이러한 성과에 기반하여, 우리는 텍스트-투-3D 생성에서 기하 구조와 스타일을 혼합하는 현재 방법들의 한계를 해결하고자 한다. 우리는 신생 다중 시점 ControlNet을 제안하는데, 이는 엄선된 텍스트 말뭉치에서 생성한 데이터셋으로 학습된 깊이 인지(depth-aware) 다중 시점 확산 모델이다. 이후 다중 시점 ControlNet을 2단계 파이프라인인 ControlDreamer에 통합하여, 스타일화된 3D 모델을 텍스트의 지시에 따라 생성할 수 있도록 한다. 더불어 물체, 동물, 캐릭터를 포함하는 다양한 범주의 주제를 아우르는 3D 스타일 편집에 대한 포괄적 벤치마크를 제시하여, 다양한 3D 생성 연구를 더욱 촉진한다. 비교 분석 결과, 인간 평가 및 CLIP 점수 지표를 통해 확인된 바와 같이, 본 새로운 파이프라인은 기존 텍스트-투-3D 방법들보다 우수함을 보인다. 프로젝트 페이지: https://controldreamer.github.io
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.