객체 합성(object compositing)은 다양한 시각 장면의 이미지에서 객체를 배치하고 조화롭게 통합하는 작업으로, 생성 모델의 등장과 함께 컴퓨터 비전 분야에서 중요한 과제로 부상하였다. 그러나 기존 데이터셋은 현실 세계의 시나리오를 포괄적으로 탐구하기에 필요한 다양성과 규모가 부족하다. 본 연구에서는 ORIDa(Object-centric Real-world Image Composition Dataset)를 소개한다. ORIDa는 30,000편이 넘는 실제 촬영 이미지로 구성된 대규모 데이터셋이며, 서로 다른 200개의 고유 객체를 포함하고 각 객체는 다양한 위치와 장면에서 제시된다. ORIDa는 두 가지 유형의 데이터를 제공한다: 사실-반사실(factual-counterfactual) 세트와 사실-단독(factual-only) 장면이다. 사실-반사실 세트는 한 장면 내에서 객체가 서로 다른 위치에 놓인 4장의 사실 이미지와, 해당 객체 없이 장면의 단일 반사실(또는 배경) 이미지를 포함하며, 그 결과 장면당 5장의 이미지가 구성된다. 사실-단독 장면은 특정 문맥에서 객체를 포함하는 단일 이미지로 이루어져, 환경의 다양성을 확장한다. 우리가 아는 한, ORIDa는 실제 세계 이미지 합성을 위한 규모와 복잡성을 갖춘 최초의 공개 이용 가능 데이터셋이다. 광범위한 분석과 실험은 객체 합성 연구를 한층 더 진전시키기 위한 자원으로서 ORIDa의 가치를 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.