권은지 교수 연구실 | 국민대학교 인공지능학부

권은지 연구실

국민대학교 인공지능학부 권은지 교수

Transformer accelerator

Structured sparsity

Quantization

권은지 교수 연구실

홈

기본 정보

연구 분야

논문

구성원

홈

권은지 연구실

국민대학교 인공지능학부 권은지 교수

권은지 연구실은 인공지능학부 소속으로, 트랜스포머 기반 비전 모델을 모바일·임베디드 환경에서 효율적으로 실행하기 위한 하드웨어/시스템 및 양자화 방법론을 연구합니다. 구조적 희소성(pruning)과 sparse GEMM 기반 가속기 설계를 통해 연산·메모리 비효율을 줄이고, 타일 기반 동적 quantization 및 가변 비트 근사로 전력 효율을 최적화합니다. 또한 강화학습을 이용한 power management 정책을 FPGA 등 하드웨어에 구현하여 의사결정 오버헤드를 낮춥니다. 더불어 reinforcement learning 기반 mixed precision PTQ와 sparse+low-rank 및 Hessian-aware 정량화로 정확도 손실을 최소화하는 압축 프레임워크를 함께 수행합니다.

Transformer acceleratorStructured sparsityQuantizationReinforcement learningPower management

대표 연구 분야

연구 영역 전체보기

구조적 희소성 기반 모바일 비전 트랜스포머/영상 가속 연구

Mobile Vision Accelerator Research via Structured Sparsity

연구 분야 상세보기

구조적 희소성 기반 모바일 비전 트랜스포머/영상 가속 연구

Mobile Vision Accelerator Research via Structured Sparsity

연구 분야 상세보기

강화학습 기반 모바일 기기 전력관리 정책 및 하드웨어 구현 연구

Reinforcement Learning-Based Power Management for Mobile Devices

연구 분야 상세보기

강화학습 기반 하이브리드 비전 트랜스포머 양자화 및 압축 프레임워크 연구

RL-Based Quantization and Compression for Hybrid Vision Transformers

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

12총합

5개년 연도별 피인용 수

54총합

주요 논문

논문 전체보기

article

인용수 0

2025

Autonomous Model Quantization Framework for Hybrid Vision Transformers based on Reinforcement Learning

Eunji Kwon, Tajana Rosing

IF 2.9 (2025)

IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems

기존 양자화(quantization) 접근법은 하이브리드 합성곱(convolution) 및 트랜스포머 모델을 저 비트폭(low bit-width)으로 압축할 때 종종 상당한 정확도 저하를 겪는다. 본 논문은 이전의 RL-PTQ 프레임워크[1]를 확장한 RL-PTQv2를 제시한다. RL-PTQv2는 새로운 강화학습(reinforcement learning, RL) 기반 사후 학습 양자화(post-training quantization, PTQ) 방법을 도입한다. RL-PTQv2는 두 가지 핵심 발전을 포함한다: (i) 하드웨어(HW)-인식 PTQ(선택적)로, RL이 인-루프 PIM 시뮬레이터(in-loop PIM simulator)로부터의 실제 지연(real latency) 및 에너지(energy) 피드백에 의해 유도되며, 정확도, 지연, 에너지를 공동으로 최적화하는 배치 가능한 설계를 가능하게 하고, (ii) 정밀도와 효율의 균형을 더 잘 맞추기 위한 대칭/비대칭 양자화 및 혼합(mixed) 적응적 라운딩(mixed adaptive rounding)을 지원하는 개선된 양자화 기법이다. MobileViTv1 및 v2[2], [3], EfficientFormerv1 및 v2[4], [5], MobileFormer[6]를 포함한 다양한 하이브리드 비전 트랜스포머 계열에서 RL-PTQv2는 이전 PTQ 방법[7], [8], [9], [10]에 비해 정량화된 정확도에서 최신 성능을 달성한다. 또한, 양자화된 모델은 기준 모델(baseline model)과 비교하여 TransPIM[11]에서 10.1×, Titan RTX GPU에서 22.6×의 에너지 효율 향상을 보였으며, 이는 MobileViT 모델을 효율적으로 실행하기 위한 전용 처리 프레임워크인 HViT-PIM에 배치했을 때 특히 두드러졌다. HViT-PIM은 주로 HW-aware PTQ의 잠재력을 탐색하기 위해 개발되었다. 그러나 RL-PTQv2는 메모리 내 처리(processing-in-memory, PIM)에만 국한되지 않는다. 다양한 비트-직렬(bit-serial) 가속기와도 원활하게 통합할 수 있으며, 이를 통해 기저 HW에 맞춘 자동 양자화를 가능하게 한다.

https://doi.org/10.1109/tcad.2025.3641538

Quantization (signal processing)

Reinforcement learning

Transformer

Rounding

Adder

Efficient energy use

article

인용수 0

2025

DeltaTrack: Flow-Driven Multiple Object Tracking Accelerator With Variable LSB Approximation for Real-Time and Energy-Efficient Video Analytics

Seunghyun Moon, Eunji Kwon

IF 4.9 (2025)

IEEE Transactions on Circuits & Systems II Express Briefs

다중 객체 추적(Multiple object tracking, MOT)은 실시간 비디오 분석에서 핵심적인 과제이지만, 기존의 검출기–추적기 파이프라인은 매 프레임마다 무거운 검출 및 추적 모델을 실행해야 하므로 높은 계산 비용과 전력 소비를 초래한다. 본 연구에서는 비키 프레임(non-key frames)에서 검출을 동적으로 스킵함으로써 불필요한 연산을 크게 줄이는 하드웨어 효율적인 MOT 가속기 Delta-Track을 제안한다. 우리의 방법은 경량 광류(optical flow) 추정 모듈을 사용하여 비키 프레임에서 객체 궤적을 예측하고, 새로운 객체가 검출되는 경우에만 전체 검출기–추적기 파이프라인을 호출한다. 또한 하드웨어 효율을 위해 가변 LSB 근사(variable LSB approximation) 방식도 도입하여, 선택된 레이어에서 비트 폭을 줄여 곱셈을 수행한다. 구체적으로, 정확도 허용 오차가 있는 레이어에서는 4비트 가중치 × 8비트 활성(activations)으로 성능을 개선하고, 정확도에 민감한 레이어에서는 지연(latency)을 개선하는 대신 6비트 가중치 × 8비트 활성로 동적 전력(dynamic power)을 감소시킨다. 28-nm CMOS에서 레이아웃 후(post-layout) 추정에 기반해 DeltaTrack은 640×640(초당 7.59 Mpixel)에서 18.5 frame/s를 유지하며, 프레임당 5.29 mJ(픽셀당 12.9 nJ)의 전력을 소비한다. 정규화(normalized)된 기준으로 이는 선행 가속기 대비 처리량이 2.26−4.66× 더 높고, 에너지는 1.29−8.7× 더 낮다.

https://doi.org/10.1109/tcsii.2025.3624840

Pipeline (software)

Object detection

Video tracking

Computation

Throughput

Variable (mathematics)

Tracking (education)

Object (grammar)

Pipeline transport

article

인용수 0

2025

QSLR: Post-Training Compression via Quantized Sparse and Low-Rank Factorization

Eunji Kwon

IF 3.6 (2025)

IEEE Access

트랜스포머 기반 파운데이션 모델의 규모와 복잡성이 커짐에 따라, 특히 자원이 제한된 환경에서 이들을 효율적으로 배치하는 데 상당한 어려움이 발생하고 있다. 최근의 후학습(post-training) 가지치기 또는 희소 + 저랭크 분해와 같은 방법들은 재학습 없이 모델 크기를 줄이지만, 여전히 32비트/고정밀(full-precision) 가중치에 의존하여 메모리 대역폭과 지연 시간에서의 이득을 제한한다. 본 논문에서는 희소 및 저랭크 분해를 통한 이상치(outlier) 인지 가지치기와 성분(component)-단위 헤시안(Hessian) 인지 양자화를 결합한 통합 후학습 양자화(PTQ) 프레임워크인 QSLR을 제안한다. 분해된 각 구성요소(희소 행렬, 저랭크 좌측 인자, 저랭크 우측 인자)는 투영된 헤시안을 사용하여 독립적으로 양자화되며, 불필요한 헤시안 계산을 제거하기 위한 효율적인 근사 기법이 사용된다. 또한 2차(Second-order) 양자화 손실을 최소화하기 위해 헤시안 가중 그리드 탐색으로 양자화 파라미터를 추가로 최적화한다. LLaMA2-7B 및 ViT-Base에 대한 실험 결과, QSLR은 최소한의 정확도 저하로 최대 5× 모델 압축을 달성하며, 기존의 최첨단 가지치기 또는 양자화 방법들을 일관되게 능가함을 보였다.

https://doi.org/10.1109/access.2025.3615473

Quantization (signal processing)

Pruning

Factorization

Vector quantization

Limiting

Data compression

Sparse matrix

Compression ratio

Grid

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)