배경: 임상 기록의 비식별화는 의료 연구에서 비구조화 텍스트 데이터에 포함된 풍부한 정보를 활용하기 위해 필수적이다. 그러나 한국에서 임상 기록으로부터 개인정보를 제거하는 문제는 제한적으로만 연구되어 왔다. 방법: 본 연구는 서울대학교 분당병원에서 OMOP Common Data Model의 Note 테이블에 저장된 종합 데이터셋을 활용하였다. 해당 데이터셋에는 다양한 다른 부서(방사선과 이외) 기록(비-방사선 보고서) 9,282,477건과 방사선 기록 11,181,617건이 포함되어 있다. 이 중 보고서의 0.1%(11,182건)를 훈련 및 검증 목적을 위해 무작위로 선정하였다. 제한적이며 주석이 소량인 데이터에서 성능을 향상시키기 위해 두 가지 비식별화 전략을 사용하였다. 첫째, 도메인 전문가가 주석을 단 1,112개 기록에 대해 규칙 기반 접근을 사용하여 정규식을 구축하였다. 둘째, 해당 정규식을 label-er로 활용하여, 의사라벨이 부여된 기록에 대해 사전 학습된 한국어 BERT 모델을 반지도 방식으로 미세조정하였다. 결과: 검증은 토큰 수준에서 라벨링된 342개의 방사선과 기록과 12개의 비-방사선과 기록을 사용하여 수행하였다. 규칙 기반 접근은 방사선과 기록에서 97.2%의 정밀도, 93.7%의 재현율, 96.2%의 F1 점수를 달성하였다. 기계학습 접근의 경우, 32,000개의 자동 의사라벨이 부여된 기록으로 미세조정된 KoBERT-NER은 96.5%의 정밀도, 97.6%의 재현율, 97.1%의 F1 점수를 달성하였다. 결론: 규칙 기반 접근과 반지도 방식의 기계학습을 결합함으로써, 본 연구 결과는 비식별화 성능을 향상시킬 수 있음을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.