우리는 소형이면서도 높은 성능을 갖춘 언어 및 멀티모달 모델인 Phi-4-Mini와 Phi-4-Multimodal을 소개한다. Phi-4-Mini는 고품질 웹 데이터와 합성 데이터를 이용해 학습된 38억 개 매개변수 규모의 언어 모델로, 유사한 크기의 최근 오픈소스 모델을 크게 능가하며, 복잡한 추론이 요구되는 수학 및 코딩 과제에서 자기 크기의 두 배에 해당하는 모델과 맞먹는 성능을 보인다. 이러한 성과는 고품질 수학 및 코딩 데이터셋에 중점을 둔 신중하게 선별된 합성 데이터 레시피에 의해 달성되었다. 선행 모델인 Phi-3.5-Mini와 비교할 때, Phi-4-Mini는 다국어 애플리케이션을 더 잘 지원하기 위해 어휘 크기를 200K 토큰으로 확장했을 뿐 아니라, 더 효율적인 장문(롱 시퀀스) 생성에 기여하는 그룹 쿼리 어텐션(group query attention)을 도입하였다. Phi-4-Multimodal은 텍스트, 비전, 음성/오디오 입력의 양식을 단일 모델에 통합하는 멀티모달 모델이다. 이 모델의 새로운 양식 확장(modality extension) 접근법은 LoRA 어댑터와 양식 특화 라우터(modality-specific routers)를 활용하여, 다양한 양식을 결합한 여러 추론 모드들을 간섭 없이 수행할 수 있도록 한다. 예를 들어, 음성/오디오 양식의 LoRA 구성 요소가 이제 겨우 4억 6000만 개의 매개변수를 가지는 데도 불구하고, OpenASR 리더보드에서는 현재까지 1위를 기록하고 있다. Phi-4-Multimodal은 (비전+언어), (비전+음성), (음성/오디오) 입력을 포함하는 시나리오를 지원하며, 다양한 과제 전반에서 더 큰 비전-언어 및 음성-언어 모델들을 능가한다. 또한 Phi-4-Mini를 추가로 학습하여 추론 능력을 향상시키기 위한 실험도 수행하였다. 비록 38억 개의 소형 매개변수 규모이지만, 이 실험 버전은 DeepSeek-R1-Distill-Qwen-7B 및 DeepSeek-R1-Distill-Llama-8B를 포함한 훨씬 더 큰 모델들과 동등하거나 더 나은 수준의 추론 성능을 달성한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.