의학 영상의학 보고서를 생성하는 기존의 과정은 방대하고 시간이 많이 소요되어, 영상의학과 전문의가 영상 연구로부터 소견을 면밀히 기술해야 한다. 이러한 수작업 방식은 종종 환자 진료에서 바람직하지 않은 지연을 초래한다. 컴퓨터 비전과 딥러닝의 발전에도 불구하고, 자동화된 의학 보고서를 생성하기 위한 효과적인 컴퓨터 보조 솔루션을 개발하는 일은 여전히 어렵다. 최근 딥러닝 기술의 발전, 특히 대조 학습(contrastive learning)의 도입은 자연어 감독(natural language supervision)에서 유의미한 성능을 보여주었다. 그러나 특히 흉부 X-ray(chest x-rays, CXR) 영역에서 의학 보고서 생성에 이를 적용하는 데에는 대규모 주석 데이터셋의 부재로 인해 한계가 있었다. 많은 연구들이 자연 이미지의 데이터 부족 문제를 해결하기 위해 멀티모달 대조 학습(multimodal contrastive learning) 방식을 제안해 왔다. 그러나 의학 보고서 생성 관점에서 이러한 기법들이 효율적으로 탐색된 사례는 없다. 본 연구는 백본 네트워크와 증강 네트워크를 포함하는 이중 대조 학습 네트워크(DuCo-Net)를 제안함으로써 이러한 과제들을 해결한다. 백본 네트워크는 원본 데이터로 학습되는 반면, 증강 네트워크는 통합된 프레임워크에서 교차 모델 증강 학습을 강조한다. DuCo-Net은 두 가지 상호 보완적인 학습 메커니즘을 가능하게 한다. 즉, 이미지 또는 텍스트 중 각 양식(modality) 내에서 각 네트워크가 전문화된 특징을 학습하는 양식 내(intra-modal) 학습과, 결합된 손실함수(combined loss function)를 통해 이미지와 텍스트 양식 간의 관계를 포착하는 양식 간(inter-modal) 학습이다. 이러한 이중 학습 접근은 의료 데이터를 처리하도록 특별히 맞춤화된 고급 풀링 기법을 적용하여 수정된 DenseNet121 및 BioBERT 모델을 활용한다. 두 개의 공개 데이터셋에 대한 포괄적 평가는 DuCo-Net이 기존 벤치마크를 유의미하게 능가함을 보여준다. Indiana University Chest X-rays 데이터셋에서는 제안 방법론이 표준 지표 전반에서 유의미한 향상을 보였으며(BLEU-1: 0.50, ROUGE: 0.40, METEOR: 0.24, F1: 0.40), MIMIC-CXR 데이터셋에서도 견고한 성능을 유지하였다(BLEU-1: 0.42, ROUGE: 0.34, METEOR: 0.20, F1: 0.34). 이는 의학 보고서 생성에서 기존의 최첨단 접근법 대비 실질적인 개선을 나타낸다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.