Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs | 김동우 교수 연구실 | 대림대학교 건축설비소방과

|김동우 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Preprint|

인용수 3

·2025

Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs

Microsoft, :, Abdelrahman Abouelenin, Atabak Ashfaq, Adam Atkinson, Hany Hassan Awadalla, Nguyễn Bách, Jianmin Bao, Alon Benhaim, Martin Cai, Vishrav Chaudhary, Congcong Chen, Dong Chen, Dongdong Chen, Junkun Chen, Weizhu Chen, Yen‐Chun Chen, Yiling Chen, Qi Dai, Xiyang Dai, Ruchao Fan, Mei Gao, Min Gao, Amit Garg, Abhishek Goswami, Junheng Hao, Amr Hendy, Yuxuan Hu, Xin Jin, Mahmoud Khademi, Dongwoo Kim, Young Jin Kim, Gina Lee, Jinyu Li, Yunsheng Li, Liang Chen, Xihui Lin, Zeqi Lin, Mengchen Liu, Yang Liu, Gilsinia Lopez, Chong Luo, Piyush Madan, Vadim Mazalov, Arindam Mitra, Ali Mousavi, Anh D. Nguyen, Jing Pan, Daniel Perez-Becker, Jacob Platin, Thomas Portet, Kai Qiu, Bo Ren, Liliang Ren, Sambuddha Roy, Ning Shang, Yelong Shen, Saksham Singhal, Subhojit Som, Xia Song, Tetyana Sych, Praneetha Vaddamanu, Shuohang Wang, Yiming Wang, Zhenghao Wang, Haibin Wu, Haoran Xu, Weijian Xu, Yifan Yang, Ziyi Yang, Donghan Yu, Ishmam Zabir, Jianwen Zhang, Li Lyna Zhang, Yunan Zhang, Xiren Zhou

ArXiv.org

초록

우리는 소형이면서도 높은 성능을 갖춘 언어 및 멀티모달 모델인 Phi-4-Mini와 Phi-4-Multimodal을 소개한다. Phi-4-Mini는 고품질 웹 데이터와 합성 데이터를 이용해 학습된 38억 개 매개변수 규모의 언어 모델로, 유사한 크기의 최근 오픈소스 모델을 크게 능가하며, 복잡한 추론이 요구되는 수학 및 코딩 과제에서 자기 크기의 두 배에 해당하는 모델과 맞먹는 성능을 보인다. 이러한 성과는 고품질 수학 및 코딩 데이터셋에 중점을 둔 신중하게 선별된 합성 데이터 레시피에 의해 달성되었다. 선행 모델인 Phi-3.5-Mini와 비교할 때, Phi-4-Mini는 다국어 애플리케이션을 더 잘 지원하기 위해 어휘 크기를 200K 토큰으로 확장했을 뿐 아니라, 더 효율적인 장문(롱 시퀀스) 생성에 기여하는 그룹 쿼리 어텐션(group query attention)을 도입하였다. Phi-4-Multimodal은 텍스트, 비전, 음성/오디오 입력의 양식을 단일 모델에 통합하는 멀티모달 모델이다. 이 모델의 새로운 양식 확장(modality extension) 접근법은 LoRA 어댑터와 양식 특화 라우터(modality-specific routers)를 활용하여, 다양한 양식을 결합한 여러 추론 모드들을 간섭 없이 수행할 수 있도록 한다. 예를 들어, 음성/오디오 양식의 LoRA 구성 요소가 이제 겨우 4억 6000만 개의 매개변수를 가지는 데도 불구하고, OpenASR 리더보드에서는 현재까지 1위를 기록하고 있다. Phi-4-Multimodal은 (비전+언어), (비전+음성), (음성/오디오) 입력을 포함하는 시나리오를 지원하며, 다양한 과제 전반에서 더 큰 비전-언어 및 음성-언어 모델들을 능가한다. 또한 Phi-4-Mini를 추가로 학습하여 추론 능력을 향상시키기 위한 실험도 수행하였다. 비록 38억 개의 소형 매개변수 규모이지만, 이 실험 버전은 DeepSeek-R1-Distill-Qwen-7B 및 DeepSeek-R1-Distill-Llama-8B를 포함한 훨씬 더 큰 모델들과 동등하거나 더 나은 수준의 추론 성능을 달성한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

ModalitiesVocabularyInferenceLanguage modelCoding (social sciences)Matching (statistics)Modality (human–computer interaction)Multimodal learning

타입

Preprint

IF / 인용수

- / 3

원문

http://arxiv.org/abs/2503.01743

게재 연도

2025