최근 대규모 언어 모델(LLM)은 다국어 능력을 보이지만, 훈련 말뭉치에서 영어가 우세한 까닭에 영어 중심적인 경향이 있다. 저자원 언어를 위한 제한된 자원은 여전히 중요한 과제로 남아 있다. 코드 스위칭(CS)은 다국어 사용자가 담화 속에서 언어를 교대로 사용하는 현상으로, 번역 과정에서 그렇지 않으면 상실될 수 있는 미묘한 문화적·언어적 뉘앙스를 전달할 수 있으며, 인간의 의사소통에서 언어에 특화된 지식을 이끌어 낸다. 이에 착안하여 본 연구는 LLM이 저자원 언어 과제를 해결할 때 코드 스위칭이 추론을 위해 지식을 활성화하거나, 지식을 식별하고 활용할 수 있는지 여부를 탐구한다. 연구를 위해 먼저 합성(synthetic) 영어-한국어 CS 질의응답 데이터셋인 ENKOQA를 제시한다. 우리는 활성화 과정을 지식 식별과 지식 활용으로 세분화하여 다양한 다국어 LLM에 대한 종합적인 분석을 제공한다. 그 결과, 영어 텍스트와 비교할 때 CS는 특히 언어별 영역에서 LLM 내부의 지식을 충실하게 활성화할 수 있음을 보여주며, 이는 저자원 언어 과제에서 코드 스위칭의 잠재력을 시사한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.