주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
article
|
·
인용수 0
·
2025Autonomous Model Quantization Framework for Hybrid Vision Transformers based on Reinforcement Learning
Eunji Kwon, Tajana Rosing
IF 2.9 (2025)
IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems
기존 양자화(quantization) 접근법은 하이브리드 합성곱(convolution) 및 트랜스포머 모델을 저 비트폭(low bit-width)으로 압축할 때 종종 상당한 정확도 저하를 겪는다. 본 논문은 이전의 RL-PTQ 프레임워크[1]를 확장한 RL-PTQv2를 제시한다. RL-PTQv2는 새로운 강화학습(reinforcement learning, RL) 기반 사후 학습 양자화(post-training quantization, PTQ) 방법을 도입한다. RL-PTQv2는 두 가지 핵심 발전을 포함한다: (i) 하드웨어(HW)-인식 PTQ(선택적)로, RL이 인-루프 PIM 시뮬레이터(in-loop PIM simulator)로부터의 실제 지연(real latency) 및 에너지(energy) 피드백에 의해 유도되며, 정확도, 지연, 에너지를 공동으로 최적화하는 배치 가능한 설계를 가능하게 하고, (ii) 정밀도와 효율의 균형을 더 잘 맞추기 위한 대칭/비대칭 양자화 및 혼합(mixed) 적응적 라운딩(mixed adaptive rounding)을 지원하는 개선된 양자화 기법이다. MobileViTv1 및 v2[2], [3], EfficientFormerv1 및 v2[4], [5], MobileFormer[6]를 포함한 다양한 하이브리드 비전 트랜스포머 계열에서 RL-PTQv2는 이전 PTQ 방법[7], [8], [9], [10]에 비해 정량화된 정확도에서 최신 성능을 달성한다. 또한, 양자화된 모델은 기준 모델(baseline model)과 비교하여 TransPIM[11]에서 10.1×, Titan RTX GPU에서 22.6×의 에너지 효율 향상을 보였으며, 이는 MobileViT 모델을 효율적으로 실행하기 위한 전용 처리 프레임워크인 HViT-PIM에 배치했을 때 특히 두드러졌다. HViT-PIM은 주로 HW-aware PTQ의 잠재력을 탐색하기 위해 개발되었다. 그러나 RL-PTQv2는 메모리 내 처리(processing-in-memory, PIM)에만 국한되지 않는다. 다양한 비트-직렬(bit-serial) 가속기와도 원활하게 통합할 수 있으며, 이를 통해 기저 HW에 맞춘 자동 양자화를 가능하게 한다.
https://doi.org/10.1109/tcad.2025.3641538
Quantization (signal processing)
Reinforcement learning
Transformer
Rounding
Adder
Efficient energy use
2
article
|
·
인용수 0
·
2025DeltaTrack: Flow-Driven Multiple Object Tracking Accelerator With Variable LSB Approximation for Real-Time and Energy-Efficient Video Analytics
Seunghyun Moon, Eunji Kwon
IF 4.9 (2025)
IEEE Transactions on Circuits & Systems II Express Briefs
다중 객체 추적(Multiple object tracking, MOT)은 실시간 비디오 분석에서 핵심적인 과제이지만, 기존의 검출기–추적기 파이프라인은 매 프레임마다 무거운 검출 및 추적 모델을 실행해야 하므로 높은 계산 비용과 전력 소비를 초래한다. 본 연구에서는 비키 프레임(non-key frames)에서 검출을 동적으로 스킵함으로써 불필요한 연산을 크게 줄이는 하드웨어 효율적인 MOT 가속기 Delta-Track을 제안한다. 우리의 방법은 경량 광류(optical flow) 추정 모듈을 사용하여 비키 프레임에서 객체 궤적을 예측하고, 새로운 객체가 검출되는 경우에만 전체 검출기–추적기 파이프라인을 호출한다. 또한 하드웨어 효율을 위해 가변 LSB 근사(variable LSB approximation) 방식도 도입하여, 선택된 레이어에서 비트 폭을 줄여 곱셈을 수행한다. 구체적으로, 정확도 허용 오차가 있는 레이어에서는 4비트 가중치 × 8비트 활성(activations)으로 성능을 개선하고, 정확도에 민감한 레이어에서는 지연(latency)을 개선하는 대신 6비트 가중치 × 8비트 활성로 동적 전력(dynamic power)을 감소시킨다. 28-nm CMOS에서 레이아웃 후(post-layout) 추정에 기반해 DeltaTrack은 640×640(초당 7.59 Mpixel)에서 18.5 frame/s를 유지하며, 프레임당 5.29 mJ(픽셀당 12.9 nJ)의 전력을 소비한다. 정규화(normalized)된 기준으로 이는 선행 가속기 대비 처리량이 2.26−4.66× 더 높고, 에너지는 1.29−8.7× 더 낮다.
https://doi.org/10.1109/tcsii.2025.3624840
Pipeline (software)
Object detection
Video tracking
Computation
Throughput
Variable (mathematics)
Tracking (education)
Object (grammar)
Pipeline transport
3
article
|
인용수 0
·
2025QSLR: Post-Training Compression via Quantized Sparse and Low-Rank Factorization
Eunji Kwon
IF 3.6 (2025)
IEEE Access
트랜스포머 기반 파운데이션 모델의 규모와 복잡성이 커짐에 따라, 특히 자원이 제한된 환경에서 이들을 효율적으로 배치하는 데 상당한 어려움이 발생하고 있다. 최근의 후학습(post-training) 가지치기 또는 희소 + 저랭크 분해와 같은 방법들은 재학습 없이 모델 크기를 줄이지만, 여전히 32비트/고정밀(full-precision) 가중치에 의존하여 메모리 대역폭과 지연 시간에서의 이득을 제한한다. 본 논문에서는 희소 및 저랭크 분해를 통한 이상치(outlier) 인지 가지치기와 성분(component)-단위 헤시안(Hessian) 인지 양자화를 결합한 통합 후학습 양자화(PTQ) 프레임워크인 QSLR을 제안한다. 분해된 각 구성요소(희소 행렬, 저랭크 좌측 인자, 저랭크 우측 인자)는 투영된 헤시안을 사용하여 독립적으로 양자화되며, 불필요한 헤시안 계산을 제거하기 위한 효율적인 근사 기법이 사용된다. 또한 2차(Second-order) 양자화 손실을 최소화하기 위해 헤시안 가중 그리드 탐색으로 양자화 파라미터를 추가로 최적화한다. LLaMA2-7B 및 ViT-Base에 대한 실험 결과, QSLR은 최소한의 정확도 저하로 최대 5× 모델 압축을 달성하며, 기존의 최첨단 가지치기 또는 양자화 방법들을 일관되게 능가함을 보였다.
https://doi.org/10.1109/access.2025.3615473
Quantization (signal processing)
Pruning
Factorization
Vector quantization
Limiting
Data compression
Sparse matrix
Compression ratio
Grid
4
article
|
·
인용수 3
·
2024RL-PTQ: RL-based Mixed Precision Quantization for Hybrid Vision Transformers
Eunji Kwon, Minxuan Zhou, Weihong Xu, Tajana Rosing, Seokhyeong Kang
기존의 양자화 접근법은 낮은 비트 폭으로 하이브리드 컨볼루션 및 트랜스포머 모델을 압축할 때 상당한 정확도 손실을 초래한다. 본 논문은 강화학습(RL)을 활용하는 새로운 사후 학습 양자화(PTQ) 프레임워크인 RL-PTQ를 제안한다. 우리는 계층을 그룹화하고 하이브리드 트랜스포머의 양자화에서 발생하는 문제를 다룸으로써, 혼합 정밀도를 위한 양자화 구성에 최적의 비트 폭 및 옵저버를 결정하는 데 초점을 둔다. 이전의 PTQ 방법들 [5--7]과 비교하여 MobileViTs에서 가장 높은 양자화 정확도를 달성하였다. 또한 PIM(Processing In Memory) 아키텍처에서의 우리의 양자화 모델은 최신 PIM 가속기 [15] 및 GPU에 비해 각각 기준 모델 대비 에너지 효율이 10.1× 및 22.6× 향상되었다.
https://doi.org/10.1145/3649329.3656231
Computer science
Quantization (signal processing)
Transformer
Computer vision
Artificial intelligence
Engineering
Electrical engineering
5
article
|
·
인용수 10
·
2023Mobile Transformer Accelerator Exploiting Various Line Sparsity and Tile-Based Dynamic Quantization
Eunji Kwon, Jongho Yoon, Seokhyeong Kang
IF 2.7 (2023)
IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems
트랜스포머 모델은 메모리 및 연산이 집약적인 특성 때문에 모바일 기기에서 활용하기 어렵다. 이에 따라 가지치기(pruning)와 양자화(quantization)와 같은 다양한 트랜스포머 모델 압축 방법에 대한 연구가 지속적으로 이루어지고 있다. 그러나 중앙 처리 장치(CPU)와 그래픽 처리 장치(GPU) 같은 일반적인 연산 플랫폼은 비정형 희소성(unstructured sparsity)을 나타내기 때문에 병렬성(parallelism) 저하가 발생하여 가지치기된 모델을 가속하는 데 에너지 효율적이지 않다. 본 논문에서는 서로 다른 과립도(granularity)에서 선 가지치기(line pruning)로 유도된 다양한 수준의 구조화 희소성(structured sparsity)을 처리할 수 있는 저전력 트랜스포머 가속기를 제안한다. 제안한 방법은 헤드(head) 단위 및 라인(line) 단위로 가지치기된 트랜스포머를 가속한다. 또한 각 헤드마다 수행되는 연산 수가 달라서 처리 엔진(PE) 간 부하 불균형 문제를 야기하는 문제를 해결하는 동시에, 헤드 단위 스킵(skip) 연산을 지원하는 헤드 재구성(head reorganization) 및 셔플(shuffling) 방법을 제시한다. 더 나아가 라인 단위 스킵을 지원하고 활성값(activations)에 대해 온더플라이(on-the-fly) 타일 기반(tile-based) 동적 양자화(dynamic quantization)를 수행하는 희소 양자화 일반 행렬-대-행렬 곱셈(sparse quantized general matrix-to-matrix multiplication, SQ-GEMM) 모듈을 구현하였다. 그 결과, 제안한 가속기는 모바일 GPU 및 CPU에 비해 각각 검출 트랜스포머(DETR)에서 에너지 효율을 2.9× 및 12.3× 향상시켰고, 비전 트랜스포머(ViT) 모델에서는 각각 3.0× 및 12.4× 향상시켰다. 또한 제안한 모바일 가속기는 현재의 최첨단 FPGA 기반 트랜스포머 가속기들 중에서 가장 높은 에너지 효율을 달성하였다.
https://doi.org/10.1109/tcad.2023.3347291
Computer science
Transformer
Efficient energy use
Computation
Parallel computing
Quantization (signal processing)
Matrix multiplication
Mobile device
Granularity
Computer hardware