텍스트-이미지(T2I) 확산 모델(DM)은 인상적인 시각적 품질을 제공하지만, 영어 중심의 학습 코퍼스에 기인하여 언어적 커버리지와 문화적 충실도는 여전히 제한적입니다. 우리는 한국어–영어에 초점을 둔 이중언어 T2I 프레임워크인 KoDi를 제안합니다. KoDi는 (1) 한국어 프롬프트를 이해하고, (2) 한국의 문화 요소를 충실하게 재현하며, (3) 일반 도메인 성능을 보존합니다. 우리는 유산 건축, 음식, 랜드마크, 전통 의복을 아우르는 한국 문화 데이터셋(KCD)을 구축했으며, 각 이미지는 한국어 캡션과 함께 두 가지 영어 변형—의미 기반 영어 번역(EN-SEM)과 음성 기반 로마자 표기(EN-ROM)—과 쌍을 이룹니다. KoDi는 사전학습된 확산 백본에 한국어–영어 CLIP 텍스트 인코더를 통합하고, KCD에서 미세조정합니다. 또한 문화적 귀속(attribution)과 프롬프트–이미지 정렬을 정량화하기 위해 두 구성요소로 이루어진 간결한 문화 평가 프로토콜을 도입합니다—KC-CLIP 유사도와, 문화적 귀속 및 프롬프트–이미지 정렬을 평가하는 Large Vision–Language Model(LVLM) 기반 평가자입니다. Bilingual Korean Culture(B-KC) 벤치마크에서 KoDi는 기존의 다국어 DM보다 우수한 성능을 보였으며, 한국어 프롬프트에서 KC-CLIP 유사도를 +29%, EN-ROM 프롬프트에서 +39%, EN-SEM 프롬프트에서 +21% 향상시켰습니다. 인간 평가 또한 문화적 관련성, 텍스트–이미지 정렬, 심미성 전반에서 KoDi가 더 선호됨을 보여주었습니다. DrawBench-200과 XM-3600을 위한 한국어 프롬프트로 확장된 Bilingual General(B-G) 벤치마크에서도 KoDi는 다국어 기준선보다 더 높은 CLIP 유사도를 달성합니다. 한국을 넘어, 본 연구의 모듈형 데이터–모델–평가 설계는 백본의 최소한의 변경만으로 영어 중심의 사전학습 확산 백본을 저자원 문화에 적응시키는 실용적인 방법을 제공합니다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.