목적: 생의학 분야에서 대규모 언어 모델(LLM)을 개발하려면 고품질의 학습 및 정렬(alignment) 튜닝 데이터셋에 대한 접근이 필요하다. 그러나 공개적으로 이용 가능한 한국어 의학 선호(preference) 데이터셋은 희소하여, 한국어 의학 LLM의 발전을 저해하고 있다. 본 연구는 자동화 파이프라인으로 구축되어 인간 주석의 높은 비용을 최소화한 정렬 튜닝 데이터셋인 한국어 의학 선호 데이터셋(Korean Medical Preference Dataset, KoMeP)을 구성하고 그 효능을 평가한다. 방법: KoMeP는 자동화된 환각(hallucination) 평가 지표인 DAHL 점수를 사용하여 생성되었다. 5개 LLM(Dolly-v2-3B, MPT-7B, GPT-4o, Qwen-2-7B, Llama-3-8B)이 8,573개의 생의학 검진(질문) 문제에 대한 응답을 생성하였고, 여기서 5,551개의 선호 쌍(preference pairs)을 추출하였다. 각 쌍은 DAHL 점수에 따라 결정된 “chosen” 응답과 “rejected” 응답으로 구성되었다. 데이터셋은 다섯 개의 서로 다른 모델에 대해 각각 두 가지 정렬 튜닝 방법인 직접 선호 최적화(direct preference optimization, DPO)와 오즈 비 선호 최적화(odds ratio preference optimization, ORPO)를 통해 학습했을 때의 성능을 평가하였다. 정렬 튜닝의 효과를 평가하기 위해 KorMedMCQA 벤치마크를 사용하였다. 결과: DPO로 학습된 모델들은 KorMedMCQA 성능이 일관되게 향상되었으며, 특히 Llama-3.1-8B는 43.96%의 증가를 보였다. 반면 ORPO 학습은 일관되지 않은 결과를 나타냈다. 또한 영어-한국어 전이 학습은 Gemma-2와 같이 영어 중심 모델에서 특히 효과적이었던 반면, 한국어-영어 전이 학습은 제한적인 성공에 그쳤다. KoMeP를 이용한 지시(instruction) 튜닝은 혼재된 결과를 보였는데, 이는 데이터셋 포맷팅의 어려움을 시사한다. 결론: KoMeP는 최초의 공개 한국어 의학 선호 데이터셋이며 LLM의 정렬 튜닝 성능을 유의미하게 향상시킨다. DPO 방법은 정렬 튜닝에서 ORPO보다 우수하다. 향후 연구는 KoMeP의 확장, 한국어 고유(native) 데이터셋 개발, 그리고 더 안전하고 신뢰할 수 있는 한국어 의학 LLM을 산출하기 위한 정렬 튜닝 방법의 개선에 초점을 맞추어야 한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.