시각-언어 모델(Vision-language models, VLMs)은 시각 및 텍스트 정보를 통합하는 능력을 바탕으로 통합적이고 해석 가능한 멀티모달 추론을 가능하게 해 왔다. 그러나 의학 분야를 위한 설명 가능한, 이미지 기반 인공지능(AI) 시스템을 개발하려면 개인정보를 보존하는 데이터 처리 워크플로를 보장하기 위해 로컬 배포가 가능한 모델이 필요하다. 본 연구에서는 소규모 모델과 합성 데이터를 사용하여 로컬 배포형 의료 VLM을 개발할 수 있게 하는 모듈형 프레임워크인 SCALEMED(Scalable Clinical Assistants and LEarning for MEDicine)를 제시한다. SCALEMED 프레임워크는 임상의 데이터 주석, 오픈소스 이미지-텍스트 데이터 수집, 대규모 VLM을 이용한 지식 전이를 통한 합성 데이터 생성, 그리고 소규모 VLM의 파인튜닝을 통합하여 특정 도메인에 특화된 의료 AI 시스템을 개발한다. 피부과의 활용 사례로서, 우리는 자원이 효율적인 VLM인 DermatoLlama를 학습하였으며, 텍스트 및 이미지 기반 평가 데이터셋 전반에서 최신 VLM들에 비해 보고서 생성 성공률이 더 높음을 보여준다. DermatoLlama는 Llama 3.2를 기반으로 하였고, 367개의 전문가가 설계한 시드 과제로부터 생성된 120만 개의 합성 텍스트 샘플과 82,379개의 오픈소스 피부과 이미지로 구성된 DermaSynth를 사용하여 학습하였다. SCALEMED 프레임워크는 특히 자원이 제한된 의료 환경에서 설명 가능하고 접근 가능한 의료 AI 시스템을 개발하기 위한 실용적인 해결책을 제공한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.