본 연구는 Drop and Rescale (DARE) 기법을 활용하여 Open LLM Leaderboard의 상위권 Large Language Models (LLMs)의 역량을 향상시키는 새롭고도 간단한 접근법을 제안한다. DARE는 미세조정된 모델로부터의 델타 파라미터 중복을 최소화함으로써 효율적인 모델 병합을 가능하게 한다. 우리는 DARE를 사용하여 성능이 우수한 다국어 LLM과 특화된 한국어 언어 모델을 통합한다. 병합된 모델은 추론 능력에 초점을 맞춰 6개의 벤치마크 과제와 다중 턴 질문 세트(MT-Bench)에서 평가된다. 그 결과, 한국어 언어 모델을 포함하는 경우 6개 벤치마크 과제 전반에서 평균 1.69%의 유의한 성능 향상이 관찰되었으며, 복잡한 추론 기술을 요구하는 Grade School Math 8K (GSM8K)에서는 특히 20% 이상 더 높은 성능을 보였다. 이는 한국어 언어의 내재적 복잡성과 풍부한 언어적 특징이 LLM의 추론 능력을 향상시키는 데 기여함을 시사한다. 또한 본 모델은 MT-Bench에서 더 우수한 성능을 나타내어 실제 환경의 추론 과제에서의 효과를 입증한다. 본 연구는 DARE가 특화된 언어 모델을 통합하는 효과적인 방법으로서의 잠재력을 강조하며, 기존 언어 모델을 고도화된 과제에 활용할 수 있음을 보여준다. 1 1 Code and models available at: https://huggingface.co/iRASC/Llama-Ko-8B .
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.