주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
인용수 7
·
2024Multifaceted Natural Language Processing Task–Based Evaluation of Bidirectional Encoder Representations From Transformers Models for Bilingual (Korean and English) Clinical Notes: Algorithm Development and Validation
K.-H. Kim, Seongkeun Park, Jeongwon Min, Sumin Park, Ju Yeon Kim, Jinsu Eun, Kyuha Jung, Yoobin Elyson Park, Esther Hehsun Kim, Eun Young Lee, Joonhwan Lee, Jinwook Choi
IF 3.8 (2024)
JMIR Medical Informatics
배경: 변환기(transformers)로부터의 양방향 인코더 표현(BERT) 모델은 환자 분류 및 질병 예측과 같은 임상 응용 분야에서 상당한 주목을 받아왔다. 그러나 현재의 연구들은 대체로 모델에 대한 충분한 맥락 이해 평가 없이 응용 개발 단계로 진행되는 경향이 있다. 또한 비영어권 국가의 의료 문서를 사용하여 BERT 모델을 비교한 연구는 제한적이다. 따라서 영어 임상 노트로 학습된 BERT 모델의 비영어권 맥락 적용 가능성은 아직 확인되지 않았다. 이러한 문헌상의 공백을 해결하기 위해, 본 연구는 비영어 임상 노트에 대해 가장 효과적인 BERT 모델을 파악하는 데 초점을 두었다. 목적: 본 연구에서는 한국어와 영어가 혼합된 임상 노트에 적용된 다양한 BERT 모델의 문맥 이해 능력을 평가하였다. 본 연구의 목적은 이러한 문서의 맥락을 이해하는 데 뛰어난 BERT 모델을 식별하는 것이었다. 방법: 한국의 한 3차 의료기관에서 164,460명의 환자 데이터를 사용하여 BERT-base, BERT for Biomedical Text Mining(BioBERT), Korean BERT(KoBERT), Multilingual BERT(M-BERT)를 사전학습(pretrain)하여 문맥 이해 능력을 향상시킨 다음 7개의 미세조정(fine-tuning) 과제에서 성능을 비교하였다. 결과: 모델 성능은 과제와 토큰 사용 방식에 따라 달라졌다. 첫째, BERT-base와 BioBERT는 문서 분류와 같은 분류(classification) 과제에서 ([CLS]) 토큰 임베딩을 사용하는 경우 뛰어난 성능을 보였다. BioBERT는 89.32의 최고 F1-score를 달성했다. 또한 BERT-base와 BioBERT는 사전에 제한된 한국어 토큰만 포함되어 있더라도 문서 패턴 인식에서 효과성을 보여주었다. 둘째, M-BERT는 독해(reading comprehension) 과제에서 우수한 성능을 보이며 93.77의 F1-score를 달성하였다. 더 적은 수의 단어를 알 수 없음(unknown, [UNK]) 토큰으로 대체할수록 더 나은 결과가 얻어졌다. 셋째, M-BERT는 지식 추론(knowledge inference) 과제에서 뛰어났다. 이 과제에서는 문서의 질병명들이 [MASK] 토큰으로 대체된 뒤, 63개의 후보 질병명으로부터 정답 질병명이 추론된다. M-BERT는 95.41의 최고 hit@10 점수를 달성했다. 결론: 본 연구는 다국어 임상 분야에서 다양한 BERT 모델의 효과성을 강조하였다. 본 결과는 임상 및 언어 기반 응용 분야에서 참고 자료로 활용될 수 있다.
https://doi.org/10.2196/52897
Computer science
Security token
Encoder
Transformer
Natural language processing
Artificial intelligence
Language model
Context (archaeology)
Machine learning
Engineering
2
Article
|
인용수 4
·
2023Prediction of complications in diabetes mellitus using machine learning models with transplanted topic model features
Benedict Choonghyun Han, Jimi Kim, Jinwook Choi
IF 3.2 (2023)
Biomedical Engineering Letters
: 본 연구는 토픽 모델링에 기반한 머신러닝 프로젝트가 질병의 진행을 효과적으로 예측할 수 있음을 보여준다. 또한 두 데이터 세트의 토픽 구조 차원에 일치하는 방식으로 토픽 모델을 이식하는 독창적인 방법을 제시한다. 보충정보: 온라인 버전에는 10.1007/s13534-023-00322-7에서 제공되는 추가 자료가 포함되어 있다.
https://doi.org/10.1007/s13534-023-00322-7
Latent Dirichlet allocation
Machine learning
Topic model
Artificial intelligence
Diabetes mellitus
Computer science
Medicine
3
Article
|
·
인용수 25
·
2023PAIP 2020: Microsatellite instability prediction in colorectal cancer
Kyung Mo Kim, Kyoungbun Lee, Sungduk Cho, Dong Un Kang, Seongkeun Park, Yunsook Kang, Hyun Jeong Kim, Gheeyoung Choe, Kyung Chul Moon, Kyu Sang Lee, Jeong Hwan Park, Choyeon Hong, Ramin Nateghi, Fattaneh Pourakpour, Xiyue Wang, Sen Yang, Seyed Alireza Fatemi Jahromi, Aliasghar Khani, Hwa-Rang Kim, Doo-Hyun Choi, Chang Hee Han, Jin Tae Kwak, Fan Zhang, Bing Han, David Joon Ho, Gyeong Hoon Kang, Se Young Chun, Won‐Ki Jeong, Peom Park, Jinwook Choi
IF 10.7 (2023)
Medical Image Analysis
https://doi.org/10.1016/j.media.2023.102886
Microsatellite instability
Colorectal cancer
Task (project management)
Stage (stratigraphy)
Cancer
Artificial intelligence
Medicine
Deep learning
Oncology
Computer science
4
Article
|
인용수 2
·
2023Selective UMLS knowledge infusion for biomedical question answering
Hyeryun Park, Jiye Son, Jeongwon Min, Jinwook Choi
IF 3.8 (2023)
Scientific Reports
생명과학 분야의 인공지능 응용 중 하나인 지식 집약형 질의응답은, 이 분야에서 도메인 전문성이 특히 중요하다는 점에 주목하여, 사전학습된 언어 모델에 생의학 지식을 효율적으로 주입하는 방법을 제안하며, 궁극적으로 생의학 질의응답을 목표로 한다. 대규모 지식 그래프의 모든 의미를 전체 모델에 이전하는 것은 너무 많은 파라미터를 필요로 하여 계산 비용과 시간을 증가시킨다. 본 연구는 어댑터를 활용하여 사전학습된 언어 모델에 Unified Medical Language System 지식을 주입하는 효율적인 접근법을 조사하고, 지식 그래프에서 모든 의미를 사용할 필요가 있는지에 의문을 제기한다. 본 연구는 지식 그래프를 분할하고, 보다 효율적인 사전학습을 위해 일부를 폐기하거나 병합하는 전략에 초점을 둔다. 세 개의 생의학 질의응답 파인튜닝 데이터셋에 대한 결과에 따르면, 의미적으로 분할된 그룹에 대해 사전학습된 어댑터는 평가 지표, 필요한 파라미터 수, 시간 측면에서 더 효율적인 성능을 보였다. 또한 결과는 개념 수가 더 적은 그룹을 폐기하는 것이 소규모 데이터셋에 더 나은 방향이며, 이러한 그룹을 병합하는 것이 대규모 데이터셋에 더 적합하다는 점을 보여준다. 더 나아가 지표 결과는 약간의 개선을 나타내어, 어댑터 방법론이 그룹 구성 방식에 대해 비교적 둔감함을 시사한다.
http://dx.doi.org/10.1038/s41598-023-41423-8
Computer science
Knowledge graph
Question answering
Unified Medical Language System
Semantics (computer science)
Artificial intelligence
Metric (unit)
Graph
Domain knowledge
Field (mathematics)
5
Article
|
인용수 12
·
2022Accuracy of Cloud-Based Speech Recognition Open Application Programming Interface for Medical Terms of Korean
Seung Hwa Lee, Jungchan Park, Kwangmo Yang, Jeongwon Min, Jinwook Choi
IF 4.5 (2022)
Journal of Korean Medical Science
배경: 의료 용어에 대한 클라우드 기반 음성 인식(SR) 오픈 애플리케이션 프로그래밍 인터페이스(API)의 정확도에 관한 데이터는 제한적이다. 본 연구는 한국어에서 현재 사용 가능한 클라우드 기반 SR 오픈 API의 의료 용어 인식 정확도를 평가하고자 하였다. 방법: 한국의 대형 3차 의료기관 외래 진료에서 수집한 실제 의사–환자 간 대화 녹음 자료를 사용하여, 현재 사용 가능한 클라우드 기반 SR 오픈 API의 SR 정확도를 분석하였다. 원래 전사와 SR 전사를 각각에 대해 분석하여, 각 클라우드 기반 SR 오픈 API의 정확도 비율(즉, SR 전사에 포함된 의료 용어 수를 원래 전사에 포함된 의료 용어 수로 나눈 값)을 산출하였다. 결과: 총 112개의 의사–환자 대화 녹음이 세 가지 클라우드 기반 SR 오픈 API(Naver Corporation의 Naver Clova SR, Alphabet Inc.의 Google Speech-to-Text, Amazon의 Amazon Transcribe)로 변환되었으며, 각 전사를 비교하였다. Naver Clova SR(75.1%)은 다른 오픈 API에 비해 의료 용어 인식에서 가장 높은 정확도를 보였고( Google Speech-to-Text, 50.9%, P < 0.001; Amazon Transcribe, 57.9%, P < 0.001), Amazon Transcribe는 Google Speech-to-Text에 비해 더 높은 인식 정확도를 보였다(P < 0.001). 하위 분석에서 Naver Clova SR은 단어 품사 전 영역에서 가장 높은 정확도를 보였으나, 5자 초과 단어의 정확도는 통계적으로 유의한 차이가 없었다(Naver Clova SR, 52.6%; Google Speech-to-Text, 56.3%; Amazon Transcribe, 36.6%). 결론: 현재의 세 가지 클라우드 기반 SR 오픈 API 중 한국 기업이 제조한 Naver Clova SR이 Google Speech-to-Text 및 Amazon Transcribe에 비해 한국어 의료 용어 인식 정확도가 가장 높았다. 의료 용어 인식에는 제한이 존재하나, 각 SR 엔진의 강점을 결합함으로써 이 유망한 기술의 개선 여지가 상당히 크다.
https://doi.org/10.3346/jkms.2022.37.e144
Cloud computing
Computer science
Application programming interface
Speech recognition
Interface (matter)
Operating system