과학 그림 캡션 생성(scientific figure captioning)은 시각 콘텐츠에 대해 맥락적으로 적절한 설명을 생성해야 하는 복잡한 과제이다. 그러나 기존 방법들은 불완전한 정보를 활용하거나, 해당 과제를 이미지-대-텍스트(image-to-text) 또는 텍스트 요약(text summarization) 문제로만 단순화하여 처리하는 경우가 많아 한계가 있다. 이러한 제약은 필수 세부 사항을 충분히 포착하는 고품질 캡션 생성에 방해가 된다. 또한 arXiv 논문에서 수집된 기존 데이터는 캡션의 품질이 낮아, 대규모 언어 모델(LLMs) 학습에 중대한 어려움을 야기한다. 본 논문에서는 이러한 문제를 해결하기 위해 서로 다른 하위 과제에 특화된 LLM들을 활용하는 Multi-LLM Collaborative Figure Caption Generation(MLBCAP)이라는 프레임워크를 제안한다. 우리의 접근은 세 가지 핵심 모듈로 전개된다. (품질 평가) 우리는 멀티모달 LLM을 활용하여 학습 데이터의 품질을 평가함으로써 저품질 캡션을 필터링한다. (다양한 캡션 생성) 이어서 캡셔닝 과제에 대해 여러 LLM을 미세조정(fine-tuning)/프롬프트하는 전략을 사용하여 후보 캡션을 생성한다. (판정) 마지막으로, 저명한 한 LLM에 후보들로부터 가장 품질이 높은 캡션을 선택하도록 프롬프트한 뒤, 남아 있는 부정확성을 정제(refining)한다. 사람 평가 결과, 본 접근으로 생성된 유익한 캡션은 사람이 작성한 캡션보다 더 높은 순위를 보였으며, 이는 그 효과를 뒷받침한다. 본 연구의 코드는 https://github.com/teamreboott/MLBCAP 에서 제공된다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.