Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey | 양밍쉬안 교수 연구실 | 연세대학교 인공지능학과

|양밍쉬안 교수 연구실

홈

연구 영역

기본 정보

논문·특허

구성원

Article|

인용수 0

·2026

Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey

Jindong Li, Yali Fu, Jiahong Liu, Linxiao Cao, Wei Ji, Menglin Yang, Irwin King, Ming-Hsuan Yang

IF 18.6 (2026) IEEE Transactions on Pattern Analysis and Machine Intelligence

초록

대규모 언어 모델(LLM)의 급속한 발전은 연속적인 멀티모달 데이터를 언어 기반 처리에 적합한 이산 표현으로 변환하기 위한 효과적인 메커니즘에 대한 필요성을 한층 강화하였다. 벡터 양자화(Vector Quantization, VQ)를 핵심 접근으로 하는 이산 토큰화는 계산 효율성과 LLM 아키텍처와의 호환성을 모두 제공한다. 그럼에도 불구하고, LLM 기반 시스템의 맥락에서 VQ 기법을 체계적으로 고찰하는 포괄적인 설문 연구가 부족한 실정이다. 본 연구는 이러한 공백을 메우기 위해 LLM을 대상으로 설계된 이산 토큰화 방법에 대한 최초의 구조화된 분류 체계(taxonomy)와 분석을 제시한다. 우리는 고전적 패러다임과 현대적 패러다임을 아우르는 대표적인 VQ 변형 8가지를 범주화하고, 이들의 알고리즘적 원리, 훈련 동역학, 그리고 LLM 파이프라인과의 통합에서 발생하는 과제를 분석한다. 알고리즘 수준의 조사에 더해, LLM이 없는 고전적 적용, LLM 기반 단일 모달 시스템, 그리고 LLM 기반 멀티모달 시스템이라는 관점에서 기존 연구를 논의하며, 양자화 전략이 정렬(alignment), 추론(reasoning), 생성 성능에 어떠한 영향을 미치는지를 조명한다. 또한 코드북 붕괴(codebook collapse), 불안정한 그래디언트 추정(unstable gradient estimation), 그리고 모달리티별 인코딩 제약(modality-specific encoding constraints)과 같은 핵심 과제들을 규명한다. 마지막으로 동적 및 과제 적응형 양자화(dynamic and task-adaptive quantization), 통합 토큰화 프레임워크(unified tokenization frameworks), 그리고 생물학적 영감을 받은 코드북 학습(biologically inspired codebook learning)과 같은 새로운 연구 방향을 논의한다. 본 설문은 전통적인 벡터 양자화와 현대의 LLM 응용을 연결함으로써, 효율적이고 일반화 가능한 멀티모달 시스템의 개발을 위한 기초 참고 자료로서 기능한다. 지속적으로 업데이트되는 버전은 다음 주소에서 제공된다: https://github.com/jindongli-Ai/LLM-Discrete-Tokenization-Survey.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

CodebookVector quantizationCategorizationLexical analysisQuantization (signal processing)Linde–Buzo–Gray algorithmClassifier (UML)Key (lock)

타입

Article

IF / 인용수

18.6 / 0

원문

https://doi.org/10.1109/tpami.2026.3676982

게재 연도

2026