Regional Attention-Enhanced Swin Transformer for Clinically Relevant Medical Image Captioning | 전문구 교수 연구실 | 광주과학기술원 전기전자컴퓨터공학과

|전문구 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Preprint|

인용수 0

·2025

Regional Attention-Enhanced Swin Transformer for Clinically Relevant Medical Image Captioning

Zubia Naz, F. Fard Ali Asghar, Muhammad Ishfaq Hussain, Yahya Hadadi, Muhammad Aasim Rafique, Wookjin Choi, Moongu Jeon

ArXiv.org

초록

자동화된 의료 영상 캡션 생성은 복잡한 방사선학적 영상을 진단적 서술로 변환하여 판독/보고 워크플로를 지원할 수 있다. 본 연구에서는 교차-어텐션 이전에 진단적으로 중요한 영역을 증폭하는 경량 지역 어텐션 모듈을 갖춘 Swin-BART 인코더-디코더 시스템을 제시한다. ROCO에서 훈련 및 평가한 결과, 본 모델은 해석 가능하면서도 간결한 구성을 유지하는 가운데 최첨단 수준의 의미 충실도를 달성한다. 우리는 세 가지 시드에 대한 mean $\pm$ std로 결과를 보고하며, 95% 신뢰구간을 포함한다. 기준 모델과 비교하여, 본 접근법은 ROUGE에서 개선을 보였고(제안 0.603, ResNet-CNN 0.356, BLIP2-OPT 0.255), BERTScore에서도 개선을 보였으며(제안 0.807, BLIP2-OPT 0.645, ResNet-CNN 0.623), BLEU, CIDEr, METEOR에서는 경쟁력 있는 성능을 보인다. 또한 우리는 추가적으로 열거형태의 실험(지역 어텐션 on/off 및 토큰 수 카운트 스윕), 양식별 분석(CT/MRI/X-ray), 짝지은 유의성 검정, 그리고 각 서술을 유도하는 영역을 시각화하는 정성적 히트맵을 제공한다. 디코딩은 빔 서치(빔 크기 $= 4$ ), 길이 패널티 $= 1.1$ , $n o_r e p e a t_n g r am_s i z e$ $= 3$ , 최대 길이 $= 128$ 을 사용한다. 제안된 설계는 정확한 임상적 문구의 캡션과 투명한 영역 기반 귀속을 제공하며, 인간이 개입하는(human in the loop) 안전한 연구 활용을 지원한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Closed captioningSalientFidelityDecoding methodsTransformerEncoderImage (mathematics)

타입

Preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2511.09893

게재 연도

2025