De-identification of clinical notes with pseudo-labeling using regular expression rules and pre-trained BERT | 이승근 교수 연구실 | 서울대학교 데이터사이언스학과

이승근 교수 연구실

서비스 플랜

연구실 검색

프로젝트 공고

정부 과제 추천

AI 기반 기업 서칭

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 1

·2025

De-identification of clinical notes with pseudo-labeling using regular expression rules and pre-trained BERT

Jiyong An, Jiyun Kim, Leonard Sunwoo, Hyunyoung Baek, Sooyoung Yoo, Seunggeun Lee

IF 3.8BMC Medical Informatics and Decision Making

초록

배경: 임상 기록의 비식별화는 의료 연구에서 비구조화 텍스트 데이터에 포함된 풍부한 정보를 활용하기 위해 필수적이다. 그러나 한국에서 임상 기록으로부터 개인정보를 제거하는 문제는 제한적으로만 연구되어 왔다. 방법: 본 연구는 서울대학교 분당병원에서 OMOP Common Data Model의 Note 테이블에 저장된 종합 데이터셋을 활용하였다. 해당 데이터셋에는 다양한 다른 부서(방사선과 이외) 기록(비-방사선 보고서) 9,282,477건과 방사선 기록 11,181,617건이 포함되어 있다. 이 중 보고서의 0.1%(11,182건)를 훈련 및 검증 목적을 위해 무작위로 선정하였다. 제한적이며 주석이 소량인 데이터에서 성능을 향상시키기 위해 두 가지 비식별화 전략을 사용하였다. 첫째, 도메인 전문가가 주석을 단 1,112개 기록에 대해 규칙 기반 접근을 사용하여 정규식을 구축하였다. 둘째, 해당 정규식을 label-er로 활용하여, 의사라벨이 부여된 기록에 대해 사전 학습된 한국어 BERT 모델을 반지도 방식으로 미세조정하였다. 결과: 검증은 토큰 수준에서 라벨링된 342개의 방사선과 기록과 12개의 비-방사선과 기록을 사용하여 수행하였다. 규칙 기반 접근은 방사선과 기록에서 97.2%의 정밀도, 93.7%의 재현율, 96.2%의 F1 점수를 달성하였다. 기계학습 접근의 경우, 32,000개의 자동 의사라벨이 부여된 기록으로 미세조정된 KoBERT-NER은 96.5%의 정밀도, 97.6%의 재현율, 97.1%의 F1 점수를 달성하였다. 결론: 규칙 기반 접근과 반지도 방식의 기계학습을 결합함으로써, 본 연구 결과는 비식별화 성능을 향상시킬 수 있음을 보여준다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Artificial intelligenceComputer scienceIdentification (biology)Table (database)Protected health informationF1 scoreSecurity tokenMachine learningRecallNatural language processing

타입

article

IF / 인용수

3.8 / 1

원문

https://doi.org/10.1186/s12911-025-02913-z

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)