자동화된 의료 영상 캡션 생성은 복잡한 방사선학적 영상을 진단적 서술로 변환하여 판독/보고 워크플로를 지원할 수 있다. 본 연구에서는 교차-어텐션 이전에 진단적으로 중요한 영역을 증폭하는 경량 지역 어텐션 모듈을 갖춘 Swin-BART 인코더-디코더 시스템을 제시한다. ROCO에서 훈련 및 평가한 결과, 본 모델은 해석 가능하면서도 간결한 구성을 유지하는 가운데 최첨단 수준의 의미 충실도를 달성한다. 우리는 세 가지 시드에 대한 meanstd로 결과를 보고하며, 95% 신뢰구간을 포함한다. 기준 모델과 비교하여, 본 접근법은 ROUGE에서 개선을 보였고(제안 0.603, ResNet-CNN 0.356, BLIP2-OPT 0.255), BERTScore에서도 개선을 보였으며(제안 0.807, BLIP2-OPT 0.645, ResNet-CNN 0.623), BLEU, CIDEr, METEOR에서는 경쟁력 있는 성능을 보인다. 또한 우리는 추가적으로 열거형태의 실험(지역 어텐션 on/off 및 토큰 수 카운트 스윕), 양식별 분석(CT/MRI/X-ray), 짝지은 유의성 검정, 그리고 각 서술을 유도하는 영역을 시각화하는 정성적 히트맵을 제공한다. 디코딩은 빔 서치(빔 크기 ), 길이 패널티 , , 최대 길이 을 사용한다. 제안된 설계는 정확한 임상적 문구의 캡션과 투명한 영역 기반 귀속을 제공하며, 인간이 개입하는(human in the loop) 안전한 연구 활용을 지원한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.