목적: 본 연구는 Whisper large-v3-turbo 모델을 미세조정하여 한국 병원 전화 상담에서의 전사(Transcription) 정확도를 향상시키고자 하였다. 구체적으로, 도메인 특화 적응이 원격의료(telemedicine) 환경에서 화자 유형 전반에 걸친 자동 음성 인식(ASR) 성능을 향상시키는지를 평가하는 것을 목표로 했다. 방법: 본인은 의사, 간호사, 환자를 포함하는 원격의료 상호작용에서 생성된 한국어 음성 오디오 파일 1,272,630개(∼1,300시간)로 구성된 공개 음성 코퍼스를 사용하였다. 음성 신호는 표준화(16 kHz, 16-bit)되었고, 정규화된 전사(전사 텍스트)와 쌍으로 구성하였다. Whisper 모델은 데이터 증강(SpecAugment, 속도 교란, 노이즈 주입) 및 화자 정규화를 포함한 지도학습(supervised learning)으로 미세조정하였다. 성능 평가는 단어 오류율(word error rate, WER)과 문자 오류율(character error rate, CER)을 사용하였으며, 화자 집단 간 비교에는 통계 검정(Wilcoxon Signed-Rank 및 Sign Test)을 적용하였다. 결과: 미세조정된 모델은 일관되게 기준 모델(baseline)보다 우수한 성능을 보였다. 환자 집단에서는 WER이 22.92%에서 22.42%로, CER은 5.32%에서 4.98%로 개선되었다. 의사와 환자 집단에서 통계적으로 유의한 개선이 관찰되었으나(p < .001), 간호사 데이터의 변화는 낮은 기준 오류율로 인해 유의하지 않았다. CER은 한국어에서 전사 충실도를 더 잘 반영하는 것으로 나타났는데, 이는 교착어(agglutinative languages)에서 흔히 나타나는 형태 변화와 단어 분절 오류의 영향을 WER보다 덜 받기 때문이다. 손실(loss) 모니터링 결과, 과적합 없이 안정적인 수렴(stable convergence)이 확인되었다. 결론: Whisper의 도메인 특화 미세조정은 한국 원격의료에서 ASR 성능을 향상시키며, 특히 환자의 자발적 발화에 대해 두드러진다. 한국어 ASR 시스템 평가에는 WER보다 CER이 더 적절하다. 이러한 결과는 디지털 헬스 환경에서 임상 기록의 정확하고 신뢰할 수 있는 생성을 위해 최적화된 ASR 모델의 활용을 뒷받침하며, 임상의의 문서 작성 부담을 줄이고 치료 연속성을 지원하며 환자 안전을 향상시킬 잠재력이 있다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.