주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
인용수 0
·
2026SHARP: Structured Hierarchical Attention Rank Projection for Efficient Language Model Distillation
Jieui Kang, Eunjeong Yoo, Soeun Choi, Yeonhui Kim, Jaehyeong Sim
IF 3.6 (2026)
IEEE Access
지식 증류(knowledge distillation)는 대규모 언어 모델을 배포 가능한 더 작은 형태로 압축하기 위한 핵심 기법으로 부상하였다. 기존 접근법은 토큰, 구(phrase), 시퀀스와 같은 길이 기반 언어 단위 수준에서 지식을 전달하는 데 초점을 맞추고 있으나, 현대 트랜스포머 아키텍처의 본질적인 계층적 어텐션 메커니즘을 충분히 포착하지 못하는 경우가 많다. 또한 여러 단위 수준이 하나의 표현 공간을 공유할 때, 동일한 용량(capacity)을 두고 경쟁하게 되어 상호 보완적 정보가 소실된다. 우리는 이러한 현상을 표현 붕괴(representation collapse)라고 명명한다. 이 한계를 해결하기 위해, 우리는 SHARP(Structured Hierarchical Attention Rank Projection)를 제안한다. SHARP는 어텐션 패턴을 토큰 수준, 헤드(head) 수준, 레이어(layer) 수준의 표현으로 분해하고, 각 표현을 증류 이전에 전용의 직교(orthogonal) 부분공간에 사영(project)하는 새로운 증류 프레임워크이다. 이러한 수학적 분해는 각 단위 수준에 독립적인 표현 용량을 부여하여 간섭을 방지하는 동시에 병렬 최적화 경로를 가능하게 한다. 교사 모델의 파라미터 규모가 350M에서 6.7B에 이르는 상황에서, NLG(자연어 생성) 및 NLU(자연어 이해) 과제 전반에 대해 125M 파라미터 학생 모델로 증류하는 대규모 실험을 수행한 결과, SHARP는 기존 증류 방법을 일관되게 능가하였다. SHARP는 NLG 과제에서 가장 강력한 기준선 대비 평균 5.2%의 퍼플렉서티(perplexity) 감소를 달성하였으며, 6.7B 교사 구성에서는 그 개선 폭이 7.8%까지 도달하였다. NLU 과제에서는 모든 모델 규모에 걸쳐 1.5~3.2%의 일관된 정확도 향상을 보였다. 이러한 결과는 직교 용량 할당이 대규모 언어 모델 압축에서 다중 단위 수준 지식 전달을 위한 효과적인 원리임을 확인해준다.
https://doi.org/10.1109/access.2026.3677560
Projection (relational algebra)
Rank (graph theory)
Distillation
Data modeling
Language model
Hierarchical database model
2
Article
|
인용수 0
·
2026QubitCache: Quantum-Inspired Probabilistic Attention Preservation for KV-Cache Compression
Jieui Kang, Jaeyoung Choi, Wonhui Noh, Jaehyeong Sim
IF 3.6 (2026)
IEEE Access
대규모 언어 모델의 추론은 KV 캐시로 인한 치명적인 메모리 병목에 직면해 있으며, 이는 시퀀스 길이에 따라 선형적으로 증가하고 장문 컨텍스트 생성 동안 GPU 메모리의 대부분을 지배한다. 기존 압축 방법은 토큰을 제거(eviction)하여 메모리를 줄이지만, 복잡한 추론에 필수적인 주의(attention) 관계를 되돌릴 수 없이 폐기한다. 우리는 KV 캐시 압축을 토큰 선택이 아니라 주의 분포(attention distribution) 압축으로 재구성하는 프레임워크인 QubitCache를 제시한다. 우리의 접근은 quantum-inspired 수학적 형식(양자 컴퓨팅의 계층적 진폭 인코딩(hierarchical amplitude encoding) 구조를 고전적 확률 분포 압축기로 사용하되, 양자 하드웨어는 요구하지 않음)을 활용하여 로그 매개변수 공간에서 주의 가중치 분포를 표현한다. QubitCache는 하이브리드 아키텍처를 도입한다. 즉, 핵심 토큰(시퀀스의 15%)은 고정밀 고전 저장소에 그대로 유지하는 반면, 나머지 토큰에 대한 주의 분포는 계층적 진폭 인코딩을 사용해 압축하며 세그먼트당 57× 매개변수 감소를 달성한다. 우리는 파이프라인 출력 오차가 압축된 토큰에 할당된 주의 질량(attention mass)의 비율에 의해 상계됨을 보이는 형식적 분석을 제공하며, 이는 고유한 주의 희소성(정리 1)으로 인해 작다(≤15%). 우리의 설계에서 중요한 성질은, 압축 분포가 프리필(prefill) 이후 고정되며 따라서 디코딩 동안 질의-비의존적(query-agnostic)이라는 점이다. 우리는 이러한 트레이드오프의 함의를 분석하고, 그 결과 λmass 안정성이 평가된 과제들에 대해 충분함을 경험적으로 입증한다. 추론 과정에서 압축 분포는 소프트 주의 가중치를 제공하기 위해 재구성되며, 압축된 토큰의 맥락적 영향은 이진(binary) 결정이 아닌 확률적 결정(probabilistic)으로 유지된다. 우리는 QubitCache를 16개의 LongBench 과제와 RULER 벤치마크에 걸쳐 4개의 장문 컨텍스트 모델에서 평가하고, 고전적 기준선(H2O, SnapKV) 및 최근 방법(MiniKV, Compactor)과 비교한다. QubitCache는 약 6.7×의 메모리 감소를 달성하면서도 전체 KV 성능의 91–99%를 유지하며, RULER에서 평균 74.8을 기록해 토큰 제거 기반 기준선보다 10.5점 높다. 지연 시간 분석은 토큰당 디코드 오버헤드가 제거 기반 방법 대비 2× 이내로 유지됨을 확인한다. 민감도, 양자화 통합, 실패 사례를 포함하는 포괄적 분석을 통해, 이 접근이 성공하는 조건과 한계가 있는 지점을 규명한다.
https://doi.org/10.1109/access.2026.3680126
Probabilistic logic
Compression (physics)
Data compression
Compression artifact
Pattern recognition (psychology)
3
Article
|
인용수 0
·
2025PRISM-Med: Parameter-Efficient Robust Interdomain Specialty Model for Medical Language Tasks
Jieui Kang, Hyungon Ryu, Jaehyeong Sim
IF 3.6 (2025)
IEEE Access
언어 모델(LM)은 의료 분야 응용에서 주목할 만한 잠재력을 보여주었으나, 다양한 의료 전문 분야에 걸쳐 일관된 성능을 달성하면서도 매개변수 효율성을 유지하는 데 어려움이 있어 광범위한 도입이 제한된다. 의료 과제를 위한 언어 모델의 현재 미세조정 접근법은 종종 막대한 연산 자원을 필요로 하며, 서로 다른 도메인 전반에 걸쳐 전문화된 의학 지식을 관리하는 문제를 해결하기 어렵다. 이러한 과제를 해결하기 위해 본 연구에서는 비지도 도메인 분리 및 전문화 적응을 통해 도메인 특화 성능을 향상시키는 새로운 프레임워크 PRISM-Med(Parameter-efficient Robust Interdomain Specialty Model)를 제안한다. 우리의 프레임워크는 세 가지 핵심 혁신을 포함한다: (1) 의학 말뭉치 내에서 최적의 지식 경계를 자동으로 발견하는 비지도 도메인 구분자, (2) 전문화된 지식을 보존하면서도 효율적으로 매개변수를 활용할 수 있게 하는 도메인 특화 Low-Rank Adaptation(LoRA) 전략, (3) 추론 과정에서 가장 관련 있는 도메인 특화 모델을 동적으로 선택하는 신경망 기반 도메인 검출기이다. MedProb, MedNER, MedQuAD의 여러 의학 벤치마크에 대한 포괄적 실험 평가를 통해, PRISM-Med가 전통적 미세조정 기준선 대비 의학 QA 과제에서 최대 10.1%, 의학 지식 평가에서 2.7%의 향상을 포함하여 일관된 성능 개선을 달성함을 보여준다. 특히, 본 프레임워크는 전통적 미세조정 접근법에 필요한 매개변수의 0.1%~0.4%만 사용하면서도 이러한 향상을 달성한다. PRISM-Med는 효율적이고 견고한 의료 언어 모델을 개발하는 데 있어 중요한 진전을 представ하며, 성능과 연산 효율 모두가 핵심적으로 요구되는 전문 의료 응용을 위한 실용적인 해결책을 제공한다.
https://doi.org/10.1109/access.2024.3525041
Computer science
Specialty
Prism
Language model
Artificial intelligence
Medicine
Optics
Family medicine
4
Article
|
인용수 4
·
2024Q-LAtte: An Efficient and Versatile LSTM Model for Quantized Attention-Based Time Series Forecasting in Building Energy Applications
Jieui Kang, Ji-Hye Park, Soeun Choi, Jaehyeong Sim
IF 3.6 (2024)
IEEE Access
장단기 메모리(Long Short-Term Memory, LSTM) 네트워크는 주의(attention) 메커니즘과 결합될 때 시계열 데이터를 처리하는 데 특히 건축 에너지 예측 분야에서 뛰어난 성능을 보인 것으로 입증되었다. 그러나 높은 계산 복잡도와 자원 집약성은 실시간 응용 및 엣지 기기에서의 활용에 있어 중대한 과제를 야기한다. 양자화(quantization)와 같은 이러한 문제를 완화하기 위한 전통적 방법들은, 과정에서 도입되는 근사 오차로 인해 모델 성능의 저하를 감수해야 하는 타협을 흔히 초래한다. 본 논문에서는 이러한 과제를 해결하기 위한 새로운 양자화 친화적(attention-based) LSTM 모델 Q-LAtte를 제안한다. Q-LAtte는 양자화에 있어 혁신적인 접근 방식을 적용하여, 표준 양자화 기법에서 흔히 나타나는 성능 저하를 크게 줄이면서 효율성의 이점을 보존한다. 우수한 성능의 핵심은 분포 인식(distribution-aware) 양자화 과정에 있다. Q-LAtte는 양자화 전후 모델 파라미터의 출력 분포를 효과적으로 보존함으로써, 예측이나 분류와 같은 의사결정 과정에 필수적인 미세하지만 중요한 변이를 유지하도록 보장한다. 전통적인 양자화 모델과 비교할 때, Q-LAtte는 눈에 띄는 성능 향상을 보인다. 구체적으로, 본 방법은 시간 비용을 최소화하면서 Mean Average Percentage Error(MAPE)를 17.56에서 8.48로 감소시키고, Mean Absolute Scaled Error(MASE)를 48% 감소시킨다. 이러한 결과는 효율성과 정확성 사이의 균형을 달성하는 데 있어 Q-LAtte의 유효성을 보여주며, 자원이 제한된 기기에서 실시간 현장 데이터 분석 및 의사결정을 수행하기 위해 attention-LSTM 네트워크를 배치하는 가능성을 크게 향상시킨다.
https://doi.org/10.1109/access.2024.3400588
Quantization (signal processing)
Computer science
Efficient energy use
Edge device
Time series
Algorithm
Artificial intelligence
Machine learning
Cloud computing
5
Article
|
인용수 3
·
2024SpDRAM: Efficient In-DRAM Acceleration of Sparse Matrix-Vector Multiplication
Jieui Kang, Soeun Choi, Eunjin Lee, Jaehyeong Sim
IF 3.6 (2024)
IEEE Access
우리는 희소성 인지(in-DRAM) 행렬 매핑 기법과 이에 상응하는 DRAM 기반 가속 프레임워크인 SpDRAM을 새롭게 제안한다. SpDRAM은 희소 행렬-벡터 곱셈(SpMV)을 효율적으로 처리하기 위해 삼중 행 활성화(triple row activation) 방식을 활용한다. 우리는 희소성에 기반한 연산 감소가 DRAM 뱅크로의 행렬 매핑 방식에 크게 의존함을 확인했는데, DRAM 뱅크는 행 단위로 동작한다. 이러한 통찰을 바탕으로, 최소한의 설계 오버헤드로 행 연산의 감소를 최대화하기 위한 두 가지 상이한 행렬 매핑 기법을 개발하였다: 출력 인지 행렬 재배열(Output-aware Matrix Permutation, OMP)과 영 인지 행렬 열 정렬(Zero-aware Matrix Column Sorting, ZMCS). 또한, 우리는 행렬 값에서 흔히 나타나는 비트 수준의 희소성을 활용하여 인-뱅크(in-bank) 곱셈 연산에 필요한 유효 비트 폭을 감소시키는 곱셈 지연(Multiplication Deferring, MD) 기법을 제안한다. 평가 결과에 따르면, 우리의 인-DRAM 가속 방법들의 조합은 SpMV에 대한 최신 DRAM 기반 PIM 가속기를 능가하며, 광범위한 SpMV 작업에서 성능이 최대 및 에너지 효율이 향상된 것으로 나타났다.
https://doi.org/10.1109/access.2024.3505622
Dram
Acceleration
Computer science
Sparse matrix
Parallel computing
Multiplication (music)
Matrix multiplication
Matrix (chemical analysis)
Matrix algebra
Computational science