RnDCircle Logo
유승주 연구실
서울대학교 컴퓨터공학부 유승주 교수
LLM 저비트 양자화
모델 경량화
하드웨어-소프트웨어 공동설계
기본 정보
연구 분야
프로젝트
논문
구성원

유승주 연구실

서울대학교 컴퓨터공학부 유승주 교수

유승주 연구실은 내장형 시스템과 인공지능 시스템 최적화를 목표로 하드웨어-소프트웨어 공동설계와 모델 경량화 방법론을 함께 수행합니다. LLM 배포를 위해 rotation 기반 비균일 양자화와 calibration-free KV cache 압축 같은 저비트 추론 최적화를 연구합니다. 동시에 PIM(Processing-in-Memory) 및 텐서 수축 프로세서 같은 컴퓨터 아키텍처 관점에서 데이터 레이아웃, pruning, 계산 재사용을 설계하여 메모리 병목을 완화하는 연구를 수행합니다. 추가로 Dense-SfM을 통해 멀티뷰 3D 재구성에서 dense matching과 트랙 확장을 활용하는 컴퓨터 비전 연구도 병행합니다.

LLM 저비트 양자화모델 경량화하드웨어-소프트웨어 공동설계Processing-in-Memory(PIM)텐서 수축 프로세서
대표 연구 분야
연구 영역 전체보기
저비트 LLM 양자화 및 회전 기반 학습/비학습 최적화 thumbnail
저비트 LLM 양자화 및 회전 기반 학습/비학습 최적화
Low-bit LLM quantization with rotation-based optimization (QAT & training-free)
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

33총합

5개년 연도별 피인용 수

389총합
주요 논문
5
논문 전체보기
1
article
|
·
인용수 5
·
2025
Dense-SfM: Structure from Motion with Dense Consistent Matching
Jongmin Lee, Sungjoo Yoo
우리는 다중 시점 이미지로부터 조밀하고 정확한 3D 재구성을 위한 새로운 구조지향운동(Structure from Motion, SfM) 프레임워크인 Dense-SfM을 제시한다. 전통적인 SfM 방법들이 종종 의존하는 희소 특징점 매칭은 특히 질감이 없는 영역에서 정확도와 점 밀도를 모두 제한한다. Dense-SfM은 이러한 한계를 극복하기 위해 조밀 매칭을 가우시안 스플래팅(Gaussian Splatting, GS) 기반 트랙 확장(track extension)과 통합하여 보다 일관적이고 더 긴 특징 트랙을 제공한다. 재구성 정확도를进一步 향상시키기 위해 Dense-SfM은 트랜스포머 및 가우시안 프로세스(Gaussian Process) 아키텍처를 활용하는 다중 시점 커널화 매칭 모듈을 갖추고 있으며, 이는 다중 시점 전반에 걸친 견고한 트랙 정제를 가능하게 한다. ETH3D 및 Texture-Poor SfM 데이터셋에 대한 평가는 Dense-SfM이 기존 최첨단 방법에 비해 정확도와 밀도에서 유의미한 개선을 제공함을 보여준다. 프로젝트 페이지: https://icetea-cv.github.io/densesfm/.
https://doi.org/10.1109/cvpr52734.2025.00600
Structure from motion
Computer science
Matching (statistics)
Motion (physics)
Artificial intelligence
Computer vision
Mathematics
Statistics
2
article
|
·
인용수 0
·
2025
FuriosaAI RNGD: A Tensor Contraction Processor for Sustainable AI Computing
Younggeun Choi, Junyoung Park, Sang Min Lee, Jeseung Yeon, Minho Kim, Chang-Jae Park, Byeongwook Bae, Hyunmin Jeong, Hanjoon Kim, June Paik, Nuno P. Lopes, Sungjoo Yoo
IF 2.9 (2025)
IEEE Micro
현대의 인공지능(AI) 워크로드는 다양한 텐서 수축(tensor contraction) 패턴을 효율적으로 처리할 수 있는 아키텍처를 요구한다. 고정 크기의 행렬 곱셈에 기반한 전통적 접근 방식은 종종 확장성과 유연성 측면에서 한계를 보인다. 제2세대 텐서 수축 프로세서인 RNGD(“Renegade”로 발음)는 텐서 연산에 내재된 병렬성과 데이터 국소성(data locality)을 활용하도록 설계된 혁신적인 아키텍처를 제안한다. 그 거친 입자(coarse-grained) 처리 요소(PE)는 단일의 대규모 단위로 동작하거나 여러 개의 독립적인 단위로 동작할 수 있어 다양한 텐서 형태에 대한 유연성을 제공한다. 회로 스위치 기반 페치 네트워크(circuit switch-based fetch network), 입력 브로드캐스팅(input broadcasting), 버퍼 기반 재사용(buffer-based reuse) 메커니즘과 같은 주요 혁신은 계산 효율을 한층 더 향상시킨다. RNGD는 차세대 AI 워크로드의 지속 가능한 연산을 위한 최적화된 성능과 에너지 효율을 제공하며, 프로세서 아키텍처에서의 중요한 발전을 의미한다.
https://doi.org/10.1109/mm.2025.3551880
Computer science
Contraction (grammar)
Tensor (intrinsic definition)
Parallel computing
Computer architecture
Tensor contraction
Computational science
Tensor product
3
article
|
인용수 1
·
2025
Rotate, Clip, and Partition: Towards W2A4KV4 Quantization by Integrating Rotation and Learnable Non-uniform Quantizer
Euntae Choi, Sumin Song, Woosang Lim, Sungjoo Yoo
우리는 Rotate, Clip, and Partition (RCP)이라는 양자화 인식 학습(Quantization-Aware Training, QAT) 접근법을 제안한다. RCP는 먼저 W2A4KV4(2비트 가중치, 4비트 활성, 4비트 KV-cache) 구성을 통해 LLM을 극단적으로 압축하는 것을 실현한다. RCP는 회전에 관한 최근 기법들을 통합하되, 회전이 가중치 분포의 비균일성에 미치는 영향을 이론적 및 실증적으로 분석함으로써 새로운 비균일 가중치 양자화기 설계를 제안한다. 우리의 가중치 양자화기인 Learnable Direct Partitioning (LDP)은 LLM 가중치와 함께 비균일 구간을 직접 학습하도록 학습 가능한 파라미터를 도입한다. 또한 비균일 W2A4에 대해 GEMV를 지원하는 GPU 커널을 개념 증명의 형태로 제시한다. 실험 결과, RCP는 LLaMA-2-7B를 W2A4KV4로 압축하되 WikiText2 PPL 손실은 2.84에 그치며, 메모리 사용량은 5.29배 감소한다. 더 나아가 RCP는 수렴 실패나 반복과 같은 치명적 문제 없이, 모바일을 대상으로 하는 어려운 LLaMA-3.2 모델들과 도메인 특화 WizardCoder-7B 및 MetaMath-7B도 양자화할 수 있음을 보인다. 코드는 https://github.com/ songsm921/RCP 에서 제공된다. * 는 동등 기여를, 1 은 교신저자를, 우리는 W2A4KV4처럼 WlAmKVn 형태로 l비트 가중치, m비트 활성 및 n비트 KV-cache를 지칭한다. 비균일 양자화를 위한 LUT 추론과 4비트 활성에 대한 특수 가속을 모두 지원하는 사용 가능한 하드웨어가 없으므로, 개념 증명의 목적으로 CUDA에서 가속된 GEMV 커널을 설계한다. 우리의 커널은 메모리 사용량을 최대 5.29배까지 줄이면서, FP16 PyTorch(Paszke et al., 2019) 및 INT4 QuaRot 구현보다 더 낮은 지연 시간을 달성할 수 있다. 우리의 기여는 다음과 같이 요약된다. 우리는 회전이 가중치 분포와 어떻게 상호작용하며 극단적 W2A4KV4 양자화에서 어떤 어려움을 야기하는지를 실증적·이론적으로 분석한다. 이를 해결하기 위해, 우리는 회전에서의 장점과 QAT를 LDP를 통해 결합하는 양자화 알고리즘 RCP를 도입하는데, LDP는 완전히 학습 가능한 비균일 양자화기이다. 우리는 RCP가 처음으로 W2A4KV4 및 W3A4KV4 양자화를 달성함을 방대한 실험을 통해 입증하여 최첨단 성능을 달성한다. 예비지식 2.1 LLM 양자화를 위한 랜덤 회전
https://doi.org/10.18653/v1/2025.findings-emnlp.400
Quantization (signal processing)
Rotation (mathematics)
Signal processing
Context (archaeology)
최신 정부 과제
41
과제 전체보기
1
주관|
2021년 4월-2023년 12월
|487,500,000
수직 적층소자 기술에 최적화된 인공지능 가속 시스템 개발
1) 적층형 시냅스 어레이 구조의 속도, 파워, 정확도 등을 평가하는 시뮬레이터 각 시냅스 소자별 하드웨어 특징을 분석하여 각각을 정확하게 모델링 할 수 있는 성능 / 파워 / 안정성 모델을 제시하고 Cycle-Accurate 한 방식으로 시냅스 어레이의 성능 / 파워 / 안정성을 측정할 수 있도록 확장 설계한 시뮬레이터를 실제 하드웨어와 비교하여 시뮬레이터가 95% 이상의 정확도로 하드웨어의 성능을 예측하는지 검증 2) 적층형 시냅스 어레이 및 CMOS로 이루어진 연산기 구조를 인공신경망 연산에 최적화한 아키텍처 시뮬레이터를 활용하여 설계된 시냅스 어레이 및 CMOS 구조를 통해 연산을 처리하는 성능 및 통신 오버헤드 분석 분석한 내용을 바탕으로 적층형 어레이, CMOS, Host Device를 아우르는 통합된 최적 아키텍처 설계를 performance / Watt를 향상시키는 것을 목표로 한다 3) 소자 및 워크로드 특성을 활용한 최적화된 프레임워크 적층형 구조로 지원하는 소자별 특성을 파악하여 수명을 최대화 할 수 있는 소프트웨어 기법 분석 소프트웨어 최적화 기술을 통해 수명을 20배, 연산 효율성을 10배 이상 향상할 수 있는 기법 제시 워크로드의 variation을 분석하고 variation에 맞춰서 연산을 효과적으로 스케쥴링하는 기법 제시 워크로드 및 하드웨어 구성에 최적화된 프레임워크를 통해 연산기의 utilization을 50% 이상으로 향상 4) PIM에서 최적의 효율을 가지는 네트워크 구조 제시 Neural Architecture Search (NAS) 기법을 활용하여 제공된 PIM 하드웨어에서 최고의 정확도를 얻는 인공신경망 탐색 PIM 하드웨어의 Noise에 의한 영향을 최소화할 수 있는 ECC 기법을 제시하고 이를 활용하여 인공신경망의 정확도 향상 Spiking Neural Network (SNN) 의 Noise-Robust 한 특징을 활용하여 PIM 하드웨어가 가지는 노이즈에도 영향을 최소한으로 받는 알고리즘 설계
하드웨어
시뮬레이터
아키텍처
인공지능
프레임워크
에러 수정 코드
네트워크 탐색
노이즈 내성
2
주관|
2021년 4월-2023년 12월
|650,000,000
수직 적층소자 기술에 최적화된 인공지능 가속 시스템 개발
1. 적층형 시냅스 어레이 구조의 속도, 파워, 정확도 등을 평가하는 시뮬레이터 개발 - 시냅스 소자별 하드웨어 특징 분석 기능 부여 - 모듈 기반의 시뮬레이터 개발을 통한 유연성 확보 - 모듈 융합을 통한 해당 구조의 속도, 파워, 정확도 측정 기술 2. 적층형 시냅스 어레이 및 CMOS로 이루어진 연산기 구조 및 인공신경망에 최적화한 아키텍처 개발 - 위 시뮬레이터를 활용하여 설계된 시냅스 어레이 및 CMOS 구조를 분석 - 위 분석을 활용하여 연산 성능 및 통신 오버헤드 분석 - 오버헤드를 최소화하기 위한 최적 아키텍처 설계 3. 소자 및 워크로드 특성을 활용한 최적화된 프레임워크 개발 - 적층형 구조로 지원하는 소자별 특성을 파악 - 해당 구조의 수명 최대화를 위한 소프트웨어 기법 분석 - 최적의 프레임워크 개발을 통한 연산기 효율 50% 이상 향상
통합 집적
3D 시냅스 소자
인공지능
아키텍처
시뮬레이터
최적화된 AI 플랫폼
노이즈 내성
3
주관|
2021년 4월-2024년 3월
|650,000,000
수직 적층소자 기술에 최적화된 인공지능 가속 시스템 개발
1. 적층형 시냅스 어레이 구조의 속도, 파워, 정확도 등을 평가하는 시뮬레이터 개발 - 시냅스 소자별 하드웨어 특징 분석 기능 부여 - 모듈 기반의 시뮬레이터 개발을 통한 유연성 확보 - 모듈 융합을 통한 해당 구조의 속도, 파워, 정확도 측정 기술 2. 적층형 시냅스 어레이 및 CMOS로 이루어진 연산기 구조 및 인공신경망에 최적화한 아키텍처 개발 - 위 시뮬레이터를 활용하여 설계된 시냅스 어레이 및 CMOS 구조를 분석 - 위 분석을 활용하여 연산 성능 및 통신 오버헤드 분석 - 오버헤드를 최소화하기 위한 최적 아키텍처 설계 3. 소자 및 워크로드 특성을 활용한 최적화된 프레임워크 개발 - 적층형 구조로 지원하는 소자별 특성을 파악 - 해당 구조의 수명 최대화를 위한 소프트웨어 기법 분석 - 최적의 프레임워크 개발을 통한 연산기 효율 50% 이상 향상
하드웨어
시뮬레이터
아키텍처
인공지능
프레임워크
컴파일러
에러 수정 코드
노이즈 내성
최신 특허
특허 전체보기
상태출원연도과제명출원번호상세정보
공개2023적응적으로 양자화를 수행하는 학생 모델 생성 장치 및 방법1020230187092
등록2023뉴럴 네트워크 가속 장치 및 그의 연산 방법1020230016290
등록2022뉴럴 렌더링을 위한 저정밀도 하드웨어 가속기 및 그 동작 방법1020220142434
전체 특허

적응적으로 양자화를 수행하는 학생 모델 생성 장치 및 방법

상태
공개
출원연도
2023
출원번호
1020230187092

뉴럴 네트워크 가속 장치 및 그의 연산 방법

상태
등록
출원연도
2023
출원번호
1020230016290

뉴럴 렌더링을 위한 저정밀도 하드웨어 가속기 및 그 동작 방법

상태
등록
출원연도
2022
출원번호
1020220142434

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.