기본 정보
연구 분야
프로젝트
논문
구성원
읽는 시간 · 1분 9초

임상 노트 비식별화: 정규식 규칙과 KoBERT 기반 NER 결합

Clinical note de-identification using rule-based patterns and KoBERT NER

연구 내용

정규식 규칙과 사전학습 BERT를 결합해 임상 노트를 비식별화하는 방법을 개발하는 연구

비정형 임상 기록에서 Protected Health Information을 제거하기 위해 정규식 기반 규칙과 반지도 학습을 결합한 비식별화 절차를 수립합니다. 도메인 전문가가 라벨링한 일부 데이터를 기반으로 방사선 및 비방사선 보고서에서 개인정보 패턴을 정규식으로 구성하고, 이를 라벨-er로 활용해 대규모 문서에 대해 pseudo-label을 생성합니다. 이후 사전학습된 한국어 BERT 계열 모델을 KoBERT-NER 형태로 미세조정하여 토큰 단위 Named-entity recognition 성능을 확보합니다. 소량 라벨 환경과 개인정보 패턴 다양성 모두를 고려해 규칙 기반 성능과 머신러닝 기반 성능을 함께 최적화합니다.

관련 연구 성과

관련 논문

1

관련 특허

0

관련 프로젝트

2

연구 흐름

초기에는 OMOP Common Data Model의 임상 노트(방사선 및 비방사선)를 대상으로 개인정보 제거 요구사항을 정리하고, 전문가 라벨을 이용해 정규식 규칙을 구축했습니다. 이후 정규식 결과를 라벨로 전환하는 라벨-er 전략을 적용하여 학습 데이터의 범위를 확장하는 반지도 학습 파이프라인을 설계했습니다. 다음 단계에서는 KoBERT-NER을 pseudo-labeled 데이터로 미세조정하여 토큰 단위 비식별 성능을 강화했습니다. 마지막으로 방사선 중심 검증 토큰셋에서 precision·recall 기반 지표로 두 전략의 성능을 비교하며 실제 운영 적용 가능성을 점검했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

  • 임상 기록 비식별화 파이프라인
  • 방사선 보고서 PHI 제거
  • 토큰 단위 NER 모델 적용
  • 반지도 학습 라벨 확장
  • 규칙+모델 하이브리드 검증 체계
  • 의료 데이터 활용 절차 고도화
  • 연구용 비정형 텍스트 정리
  • 보호정보 탐지 기반 전처리
  • 병원 시스템 연계 배포
  • 데이터 거버넌스 기술 구현

관련 논문

구분

제목

1

De-identification of clinical notes with pseudo-labeling using regular expression rules and pre-trained BERT

관련 프로젝트

구분

제목

1

서울대학교 의료 인공지능 특화 융합인재 양성 사업

2

서울대학교 의료 인공지능 특화 융합인재 양성 사업

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.