배경: 정확하고 적시에 시행되는 심전도(ECG) 판독은 응급 상황에서 심근경색(MI) 진단에 핵심적이다. ChatGPT(OpenAI) 및 Gemini(Google DeepMind)와 같은 최근의 다중모달 대규모 언어모델(LLM) 발전은 의료 영상의 임상적 해석에서 가능성을 보여주었다. 그러나 이러한 모델이 파형 패턴을 분석하는지, 아니면 단순히 텍스트 단서를 활용하는지 여부는 불분명하며, 따라서 전용 ECG 인공지능(AI) 도구와의 직접 비교 필요성이 제기된다. 목적: 본 연구는 일반목적 LLM인 ChatGPT와 Gemini의 ECG 이미지에서 MI를 탐지하는 진단 성능을 평가하고, 전용 AI 기반 ECG 분석 도구인 ECG Buddy(ARPI Inc)의 성능과 비교하고자 하였다. 방법: 본 후향적 연구에서는 파키스탄의 공개된 12유도 ECG 데이터셋을 사용하여 MI 분류를 위한 AI 모델들을 평가하고 비교하였다. 사례는 MI-양성(239장)과 MI-음성(689장)으로 분류하였다. ChatGPT(GPT-4o, 2024년 11월 20일 버전)와 Gemini(Gemini 2.5 pro)를 5가지 MI 신뢰도 옵션으로 질의하였고, ECG Buddy(마이크로소프트 Windows용)는 ST분절 상승 MI, 급성 관상동맥 증후군, 심근 손상 바이오마커에 기반하여 이미지를 분석하였다. 결과: 총 928건의 ECG 기록(239/928, 25.8% MI-양성) 중 ChatGPT의 정확도는 65.95%(95% CI 62.80-69.00), 곡선하면적(area under the curve, AUC)은 57.34%(95% CI 53.44-61.24), 민감도는 36.40%(95% CI 30.30-42.85), 특이도는 76.2%(95% CI 72.84-79.33)였다. Gemini 2.5 Pro에서는 정확도가 29.63%(95% CI 26.71-32.69), AUC가 51.63%(95% CI 50.22-53.04)로 감소했으며 민감도는 97.07%(95% CI 94.06-98.81)로 증가하였으나, 특이도는 6.24%(95% CI 4.55-8.31)로 급격히 감소하였다. 반면 ECG Buddy는 정확도 96.98%(95% CI 95.67-97.99), AUC 98.8%(95% CI 98.3-99.43), 민감도 96.65%(95% CI 93.51-98.54), 특이도 97.10%(95% CI 95.55-98.22)를 달성하였다. DeLong 검정에서 ECG Buddy가 ChatGPT보다 유의하게 우수함이 확인되었다(모두 P<.001). LLM의 진단 설명에 대한 정성적 오류 분석에서, GPT-4o는 5%의 사례(2/40)에서만 설명이 완전히 정확했으며, 38%(15/40)에서는 부분적으로 정확했고, 58%(23/40)에서는 완전히 부정확했다. 이에 비해 Gemini 2.5 Pro는 32%(12/37)에서 설명이 완전히 정확했고, 14%(5/37)에서는 부분적으로 정확했으며, 54%(20/37)에서는 완전히 부정확했다. 결론: ChatGPT와 Gemini와 같은 LLM은 ECG 이미지 기반 MI 진단에서 ECG Buddy와 같은 전용 도구에 비해 수행이 미흡하다. 추가 훈련을 통해 LLM의 성능을 향상시킬 수는 있으나, 임상적 정확도를 위한 도메인 특화 AI는 여전히 필수적이다. ECG Buddy의 높은 성능은 신뢰할 수 있고 견고한 진단 결과를 달성하기 위해 전용 모델이 중요함을 시사한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.