생성형 디퓨전·LLM 기반 데이터 증강 및 시각-언어 생성

Generative Diffusion and LLM for Data Augmentation and Vision-Language Generation

연구 내용

디퓨전 모델과 LLM을 결합해 데이터 희소 문제를 완화하고, 문화 충실도와 품질 평가를 포함한 텍스트-이미지·과학 그림 캡션 생성 연구

생성형 디퓨전 모델에서 분포 이탈을 줄이기 위해 LLM이 풍부한 의미 정보를 텍스트 프롬프트에 주입하고, 이미지별 적응형 guidance weight를 CLIPScore로 조절하는 데이터 증강 프레임워크를 연구합니다. 또한 한국어 프롬프트와 한국 문화 요소를 충실히 반영하는 이중언어 텍스트-이미지 생성 모델을 구축하고, 문화 적합도와 프롬프트-이미지 정렬을 평가하는 프로토콜을 제안합니다. 더 나아가 과학 문서의 그림 캡션 생성에서는 다수의 특화 LLM이 후보를 생성한 뒤 품질 평가와 선택, 정제를 수행하는 협업 파이프라인을 구현합니다.

관련 프로젝트

0건

연구 흐름

먼저 데이터가 부족한 환경에서 디퓨전 생성의 다양성과 타깃 분포 준수를 동시에 달성하기 위해 LLM-프롬프트 기반 생성과 CLIPScore 기반 적응형 guidance 조절을 도입하였습니다. 이어서 이중언어 CLIP 텍스트 인코더와 한국 문화 데이터셋을 결합하여 한국어 기반 텍스트-이미지 생성과 문화 충실도 평가로 확장했습니다. 이후 과학 문서 분야에서는 멀티모달 LLM 기반 품질 평가, 후보 생성, 최종 선택·정제의 모듈형 캡션 생성 체계를 개발해 연구 범위를 넓혔습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

가이던스 기반 데이터 증강
문화 특화 텍스트-이미지 생성
이중언어 프롬프트 정렬
과학 그림 캡션 생성
캡션 품질 평가 필터링
멀티모달 스코어링
분포 준수 중심 합성 데이터 생성
저자원 문화권 이미지 합성
생성 결과 정제 파이프라인
문서 콘텐츠 자동 요약 및 보강