논문 | 심재형 교수 연구실 | 이화여자대학교 컴퓨터공학과

|심재형 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

논문

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

14총합

5개년 연도별 피인용 수

87총합

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

Article

인용수 0

2026

SHARP: Structured Hierarchical Attention Rank Projection for Efficient Language Model Distillation

Jieui Kang, Eunjeong Yoo, Soeun Choi, Yeonhui Kim, Jaehyeong Sim

IF 3.6 (2026)

IEEE Access

지식 증류(knowledge distillation)는 대규모 언어 모델을 배포 가능한 더 작은 형태로 압축하기 위한 핵심 기법으로 부상하였다. 기존 접근법은 토큰, 구(phrase), 시퀀스와 같은 길이 기반 언어 단위 수준에서 지식을 전달하는 데 초점을 맞추고 있으나, 현대 트랜스포머 아키텍처의 본질적인 계층적 어텐션 메커니즘을 충분히 포착하지 못하는 경우가 많다. 또한 여러 단위 수준이 하나의 표현 공간을 공유할 때, 동일한 용량(capacity)을 두고 경쟁하게 되어 상호 보완적 정보가 소실된다. 우리는 이러한 현상을 표현 붕괴(representation collapse)라고 명명한다. 이 한계를 해결하기 위해, 우리는 SHARP(Structured Hierarchical Attention Rank Projection)를 제안한다. SHARP는 어텐션 패턴을 토큰 수준, 헤드(head) 수준, 레이어(layer) 수준의 표현으로 분해하고, 각 표현을 증류 이전에 전용의 직교(orthogonal) 부분공간에 사영(project)하는 새로운 증류 프레임워크이다. 이러한 수학적 분해는 각 단위 수준에 독립적인 표현 용량을 부여하여 간섭을 방지하는 동시에 병렬 최적화 경로를 가능하게 한다. 교사 모델의 파라미터 규모가 350M에서 6.7B에 이르는 상황에서, NLG(자연어 생성) 및 NLU(자연어 이해) 과제 전반에 대해 125M 파라미터 학생 모델로 증류하는 대규모 실험을 수행한 결과, SHARP는 기존 증류 방법을 일관되게 능가하였다. SHARP는 NLG 과제에서 가장 강력한 기준선 대비 평균 5.2%의 퍼플렉서티(perplexity) 감소를 달성하였으며, 6.7B 교사 구성에서는 그 개선 폭이 7.8%까지 도달하였다. NLU 과제에서는 모든 모델 규모에 걸쳐 1.5~3.2%의 일관된 정확도 향상을 보였다. 이러한 결과는 직교 용량 할당이 대규모 언어 모델 압축에서 다중 단위 수준 지식 전달을 위한 효과적인 원리임을 확인해준다.

https://doi.org/10.1109/access.2026.3677560

Projection (relational algebra)

Rank (graph theory)

Distillation

Data modeling

Language model

Hierarchical database model

Article

인용수 0

2026

QubitCache: Quantum-Inspired Probabilistic Attention Preservation for KV-Cache Compression

Jieui Kang, Jaeyoung Choi, Wonhui Noh, Jaehyeong Sim

IF 3.6 (2026)

IEEE Access

대규모 언어 모델의 추론은 KV 캐시로 인한 치명적인 메모리 병목에 직면해 있으며, 이는 시퀀스 길이에 따라 선형적으로 증가하고 장문 컨텍스트 생성 동안 GPU 메모리의 대부분을 지배한다. 기존 압축 방법은 토큰을 제거(eviction)하여 메모리를 줄이지만, 복잡한 추론에 필수적인 주의(attention) 관계를 되돌릴 수 없이 폐기한다. 우리는 KV 캐시 압축을 토큰 선택이 아니라 주의 분포(attention distribution) 압축으로 재구성하는 프레임워크인 QubitCache를 제시한다. 우리의 접근은 quantum-inspired 수학적 형식(양자 컴퓨팅의 계층적 진폭 인코딩(hierarchical amplitude encoding) 구조를 고전적 확률 분포 압축기로 사용하되, 양자 하드웨어는 요구하지 않음)을 활용하여 로그 매개변수 공간에서 주의 가중치 분포를 표현한다. QubitCache는 하이브리드 아키텍처를 도입한다. 즉, 핵심 토큰(시퀀스의 15%)은 고정밀 고전 저장소에 그대로 유지하는 반면, 나머지 토큰에 대한 주의 분포는 계층적 진폭 인코딩을 사용해 압축하며 세그먼트당 57× 매개변수 감소를 달성한다. 우리는 파이프라인 출력 오차가 압축된 토큰에 할당된 주의 질량(attention mass)의 비율에 의해 상계됨을 보이는 형식적 분석을 제공하며, 이는 고유한 주의 희소성(정리 1)으로 인해 작다(≤15%). 우리의 설계에서 중요한 성질은, 압축 분포가 프리필(prefill) 이후 고정되며 따라서 디코딩 동안 질의-비의존적(query-agnostic)이라는 점이다. 우리는 이러한 트레이드오프의 함의를 분석하고, 그 결과 λ_mass 안정성이 평가된 과제들에 대해 충분함을 경험적으로 입증한다. 추론 과정에서 압축 분포는 소프트 주의 가중치를 제공하기 위해 재구성되며, 압축된 토큰의 맥락적 영향은 이진(binary) 결정이 아닌 확률적 결정(probabilistic)으로 유지된다. 우리는 QubitCache를 16개의 LongBench 과제와 RULER 벤치마크에 걸쳐 4개의 장문 컨텍스트 모델에서 평가하고, 고전적 기준선(H2O, SnapKV) 및 최근 방법(MiniKV, Compactor)과 비교한다. QubitCache는 약 6.7×의 메모리 감소를 달성하면서도 전체 KV 성능의 91–99%를 유지하며, RULER에서 평균 74.8을 기록해 토큰 제거 기반 기준선보다 10.5점 높다. 지연 시간 분석은 토큰당 디코드 오버헤드가 제거 기반 방법 대비 2× 이내로 유지됨을 확인한다. 민감도, 양자화 통합, 실패 사례를 포함하는 포괄적 분석을 통해, 이 접근이 성공하는 조건과 한계가 있는 지점을 규명한다.

https://doi.org/10.1109/access.2026.3680126

Probabilistic logic

Compression (physics)

Data compression

Compression artifact

Pattern recognition (psychology)

Article

인용수 0

2025

PRISM-Med: Parameter-Efficient Robust Interdomain Specialty Model for Medical Language Tasks

Jieui Kang, Hyungon Ryu, Jaehyeong Sim

IF 3.6 (2025)

IEEE Access

언어 모델(LM)은 의료 분야 응용에서 주목할 만한 잠재력을 보여주었으나, 다양한 의료 전문 분야에 걸쳐 일관된 성능을 달성하면서도 매개변수 효율성을 유지하는 데 어려움이 있어 광범위한 도입이 제한된다. 의료 과제를 위한 언어 모델의 현재 미세조정 접근법은 종종 막대한 연산 자원을 필요로 하며, 서로 다른 도메인 전반에 걸쳐 전문화된 의학 지식을 관리하는 문제를 해결하기 어렵다. 이러한 과제를 해결하기 위해 본 연구에서는 비지도 도메인 분리 및 전문화 적응을 통해 도메인 특화 성능을 향상시키는 새로운 프레임워크 PRISM-Med(Parameter-efficient Robust Interdomain Specialty Model)를 제안한다. 우리의 프레임워크는 세 가지 핵심 혁신을 포함한다: (1) 의학 말뭉치 내에서 최적의 지식 경계를 자동으로 발견하는 비지도 도메인 구분자, (2) 전문화된 지식을 보존하면서도 효율적으로 매개변수를 활용할 수 있게 하는 도메인 특화 Low-Rank Adaptation(LoRA) 전략, (3) 추론 과정에서 가장 관련 있는 도메인 특화 모델을 동적으로 선택하는 신경망 기반 도메인 검출기이다. MedProb, MedNER, MedQuAD의 여러 의학 벤치마크에 대한 포괄적 실험 평가를 통해, PRISM-Med가 전통적 미세조정 기준선 대비 의학 QA 과제에서 최대 10.1%, 의학 지식 평가에서 2.7%의 향상을 포함하여 일관된 성능 개선을 달성함을 보여준다. 특히, 본 프레임워크는 전통적 미세조정 접근법에 필요한 매개변수의 0.1%~0.4%만 사용하면서도 이러한 향상을 달성한다. PRISM-Med는 효율적이고 견고한 의료 언어 모델을 개발하는 데 있어 중요한 진전을 представ하며, 성능과 연산 효율 모두가 핵심적으로 요구되는 전문 의료 응용을 위한 실용적인 해결책을 제공한다.

https://doi.org/10.1109/access.2024.3525041

Computer science

Specialty

Prism

Language model

Artificial intelligence

Medicine

Optics

Family medicine

Article

인용수 4

2024

Q-LAtte: An Efficient and Versatile LSTM Model for Quantized Attention-Based Time Series Forecasting in Building Energy Applications

Jieui Kang, Ji-Hye Park, Soeun Choi, Jaehyeong Sim

IF 3.6 (2024)

IEEE Access

장단기 메모리(Long Short-Term Memory, LSTM) 네트워크는 주의(attention) 메커니즘과 결합될 때 시계열 데이터를 처리하는 데 특히 건축 에너지 예측 분야에서 뛰어난 성능을 보인 것으로 입증되었다. 그러나 높은 계산 복잡도와 자원 집약성은 실시간 응용 및 엣지 기기에서의 활용에 있어 중대한 과제를 야기한다. 양자화(quantization)와 같은 이러한 문제를 완화하기 위한 전통적 방법들은, 과정에서 도입되는 근사 오차로 인해 모델 성능의 저하를 감수해야 하는 타협을 흔히 초래한다. 본 논문에서는 이러한 과제를 해결하기 위한 새로운 양자화 친화적(attention-based) LSTM 모델 Q-LAtte를 제안한다. Q-LAtte는 양자화에 있어 혁신적인 접근 방식을 적용하여, 표준 양자화 기법에서 흔히 나타나는 성능 저하를 크게 줄이면서 효율성의 이점을 보존한다. 우수한 성능의 핵심은 분포 인식(distribution-aware) 양자화 과정에 있다. Q-LAtte는 양자화 전후 모델 파라미터의 출력 분포를 효과적으로 보존함으로써, 예측이나 분류와 같은 의사결정 과정에 필수적인 미세하지만 중요한 변이를 유지하도록 보장한다. 전통적인 양자화 모델과 비교할 때, Q-LAtte는 눈에 띄는 성능 향상을 보인다. 구체적으로, 본 방법은 시간 비용을 최소화하면서 Mean Average Percentage Error(MAPE)를 17.56에서 8.48로 감소시키고, Mean Absolute Scaled Error(MASE)를 48% 감소시킨다. 이러한 결과는 효율성과 정확성 사이의 균형을 달성하는 데 있어 Q-LAtte의 유효성을 보여주며, 자원이 제한된 기기에서 실시간 현장 데이터 분석 및 의사결정을 수행하기 위해 attention-LSTM 네트워크를 배치하는 가능성을 크게 향상시킨다.

https://doi.org/10.1109/access.2024.3400588

Quantization (signal processing)

Computer science

Efficient energy use

Edge device

Time series

Algorithm

Artificial intelligence

Machine learning

Cloud computing

Article

인용수 3

2024

SpDRAM: Efficient In-DRAM Acceleration of Sparse Matrix-Vector Multiplication

Jieui Kang, Soeun Choi, Eunjin Lee, Jaehyeong Sim

IF 3.6 (2024)

IEEE Access

우리는 희소성 인지(in-DRAM) 행렬 매핑 기법과 이에 상응하는 DRAM 기반 가속 프레임워크인 SpDRAM을 새롭게 제안한다. SpDRAM은 희소 행렬-벡터 곱셈(SpMV)을 효율적으로 처리하기 위해 삼중 행 활성화(triple row activation) 방식을 활용한다. 우리는 희소성에 기반한 연산 감소가 DRAM 뱅크로의 행렬 매핑 방식에 크게 의존함을 확인했는데, DRAM 뱅크는 행 단위로 동작한다. 이러한 통찰을 바탕으로, 최소한의 설계 오버헤드로 행 연산의 감소를 최대화하기 위한 두 가지 상이한 행렬 매핑 기법을 개발하였다: 출력 인지 행렬 재배열(Output-aware Matrix Permutation, OMP)과 영 인지 행렬 열 정렬(Zero-aware Matrix Column Sorting, ZMCS). 또한, 우리는 행렬 값에서 흔히 나타나는 비트 수준의 희소성을 활용하여 인-뱅크(in-bank) 곱셈 연산에 필요한 유효 비트 폭을 감소시키는 곱셈 지연(Multiplication Deferring, MD) 기법을 제안한다. 평가 결과에 따르면, 우리의 인-DRAM 가속 방법들의 조합은 SpMV에 대한 최신 DRAM 기반 PIM 가속기를 능가하며, 광범위한 SpMV 작업에서 성능이 최대

7.54 \times

및 에너지 효율이

22.4 \times

향상된 것으로 나타났다.

https://doi.org/10.1109/access.2024.3505622

Dram

Acceleration

Computer science

Sparse matrix

Parallel computing

Multiplication (music)

Matrix multiplication

Matrix (chemical analysis)

Matrix algebra

Computational science

전체 논문

Article

인용수 0

2026

SHARP: Structured Hierarchical Attention Rank Projection for Efficient Language Model Distillation

Jieui Kang, Eunjeong Yoo, Soeun Choi, Yeonhui Kim, Jaehyeong Sim

IF 3.6 (2026)

IEEE Access

https://doi.org/10.1109/access.2026.3677560

Projection (relational algebra)

Rank (graph theory)

Distillation

Data modeling

Language model

Hierarchical database model

Article

인용수 0

2026

QubitCache: Quantum-Inspired Probabilistic Attention Preservation for KV-Cache Compression

Jieui Kang, Jaeyoung Choi, Wonhui Noh, Jaehyeong Sim

IF 3.6 (2026)

IEEE Access

https://doi.org/10.1109/access.2026.3680126

Probabilistic logic

Compression (physics)

Data compression

Compression artifact

Pattern recognition (psychology)

Article

인용수 0

2025

PRISM-Med: Parameter-Efficient Robust Interdomain Specialty Model for Medical Language Tasks

Jieui Kang, Hyungon Ryu, Jaehyeong Sim

IF 3.6 (2025)

IEEE Access

https://doi.org/10.1109/access.2024.3525041

Computer science

Specialty

Prism

Language model

Artificial intelligence

Medicine

Optics

Family medicine

Article

인용수 4

2024

Q-LAtte: An Efficient and Versatile LSTM Model for Quantized Attention-Based Time Series Forecasting in Building Energy Applications

Jieui Kang, Ji-Hye Park, Soeun Choi, Jaehyeong Sim

IF 3.6 (2024)

IEEE Access

https://doi.org/10.1109/access.2024.3400588

Quantization (signal processing)

Computer science

Efficient energy use

Edge device

Time series

Algorithm

Artificial intelligence

Machine learning

Cloud computing

Article

인용수 3

2024

SpDRAM: Efficient In-DRAM Acceleration of Sparse Matrix-Vector Multiplication

Jieui Kang, Soeun Choi, Eunjin Lee, Jaehyeong Sim

IF 3.6 (2024)

IEEE Access

7.54 \times

및 에너지 효율이

22.4 \times

향상된 것으로 나타났다.

https://doi.org/10.1109/access.2024.3505622

Dram

Acceleration

Computer science

Sparse matrix

Parallel computing

Multiplication (music)

Matrix multiplication

Matrix (chemical analysis)

Matrix algebra

Computational science

Preprint

인용수 0

2026

CLIP-RD: Relative Distillation for Efficient CLIP Knowledge Distillation

Jeannie Chung, Hanna Jang, Ingyeong Yang, Uiwon Hwang, Jaehyeong Sim

arXiv (Cornell University)

CLIP은 대조 학습을 통해 이미지 및 텍스트 임베딩을 정렬하며 강력한 제로샷 일반화 성능을 보인다. 그러나 대규모 아키텍처는 상당한 연산 및 메모리 자원을 필요로 하며, 이에 따라 이러한 능력을 경량 학생 모델로 증류하는 동기가 생긴다. 그럼에도 불구하고 기존의 CLIP 증류 방법들은 교사와 학생 임베딩 간의 다중 방향 관계 의존성을 명시적으로 모델링하지 않으며, 이로 인해 학생이 교사가 인코딩한 구조적 관계를 보존하는 능력이 제한된다. 이를 해결하기 위해 본 연구는 두 가지 새로운 방법인 수직 관계 증류(Vertical Relational Distillation, VRD)와 교차 관계 증류(Cross Relational Distillation, XRD)를 도입하는 관계 지식 증류 프레임워크를 제안한다. VRD는 분포 수준에서 모달리티 전반에 걸친 교사-학생 증류 강도의 일관성을 강제하는 반면, XRD는 교차 모달리티 교사-학생 유사도 분포에 대해 쌍방향 대칭성을 부과한다. 다중 방향 관계 구조를 공동으로 모델링함으로써 CLIP-RD는 학생 임베딩 기하를 교사의 기하와 충실하게 정렬하며, 기존 방법 대비 0.8%p 더 우수한 성능을 보인다.

https://doi.org/10.48550/arxiv.2603.25383

Distillation

Embedding

Consistency (knowledge bases)

Relational database

Similarity (geometry)

Statistical relational learning

Article

인용수 0

2025

GATHER: A Gated-Attention Accelerator for Efficient LLM Inference

Eunjin Lee, Eunseo Kim, Eunjoung Yoo, Jaehyeong Sim

거대 언어 모델(Large Language Models, LLM)은 중요한 전환점을 맞이하고 있으나, 자기회귀적 추론은 상당한 메모리 대역폭 병목에 의해 성능과 에너지 효율이 저해된다. 본 논문에서는 생성형 AI 추론의 효율성을 위해 특별히 설계된 새로운 하드웨어 가속기 아키텍처인 GATHER를 제안한다. GATHER는 두 가지 핵심 기여를 제공한다. (1) 가변 길이 시퀀스를 원활하게 처리하는 토큰 스트림 프로세서로서, 패딩에 따른 오버헤드를 완전히 제거한다. (2) Top-K 주의(attention) 점수 선택을 전용 주소 가더(address gather) 유닛과 밀접하게 결합함으로써 주의 병목을 해결하는 특화된 게이티드-가더(Gated-Gather) 엔진이다. 이 엔진은 가장 두드러진 토큰을 식별하고, DRAM에 대해 최적화된 배치 메모리 요청을 발행하여 칩 외부 트래픽을 현저히 감소시킨다. 평가 결과, 제안하는 아키텍처는 GPT-2 및 Llama-3-8B에서 처리량과 에너지 효율 측면에서 단일 NVIDIA A100 GPU보다 우수함을 보인다.

https://doi.org/10.1109/isocc66390.2025.11329547

Bottleneck

Inference

Memory bandwidth

Salient

Key (lock)

Efficient energy use

Throughput

Selection (genetic algorithm)

Bandwidth (computing)

Article

인용수 0

2025

LoRA-PIM: In-Memory Delta-Weight Injection for Multi-Adapter LLM Serving

Soeun Choi, Jaehyeong Sim

저순위 적응(LoRA)은 ≤ 1%의 학습 가능한 가중치 “델타(deltas)”를 추가하여 단일 대형 언어 모델(LLM)을 수천 개의 도메인 특화 전문가로 변환한다. 현행(실무 수준) 서비스 시스템은 여전히 호스트에서 GPU 메모리로 이러한 어댑터를 복사하여 제공하고 있으며, 그 결과 8–20 ms의 스왑 지연(latency)이 발생하고 데이터 이동에 따른 에너지가 낭비된다. 우리는 LoRA-PIM이라는 새로운 아키텍처를 제안하는데, 이는 처리-메모리(PIM) DRAM 내부에서 LoRA 델타와 기본 가중치를 결합한다. 각 감지 증폭기(sense-amplifier) 슬라이스는 8비트 마스크드 XOR/ADD 유닛을 포함하며, 추가 사이클 없이 현재 활성화된 행(row)에 양자화된 델타 뱅크들을 오버레이한다. 32nm eDRAM에서 시뮬레이션한 결과, LoRA-PIM은 어댑터 스위치 지연을 9.6ms(GPU + S-LoRA)에서 50μs로 감소시켰으며(-99.5%), 16개 작업(task)을 수행하는 Llama-2-7B에서 토큰당 에너지를 70% 절감하였다. 또한 뱅크 면적은 2%만 추가하면서도 모델 정확도를 보존한다. 우리의 결과는 메모리 내 델타 적용(in-memory delta application)이 확장 가능하고 에너지 효율적인 LLM 서빙으로 나아가는 유망한 경로임을 보여준다.

https://doi.org/10.1109/isocc66390.2025.11329773

Swap (finance)

Latency (audio)

Overlay

Architecture

Energy consumption

Energy (signal processing)

Article

인용수 1

2025

ViT-Slim: A Genetic Algorithm-based NAS Framework for Efficient Vision Transformer Design

Eunjoung Yoo, Jaehyeong Sim

산업 응용에서 맞춤 데이터셋으로 미세 조정된 사전 학습 모델은 과도하게 크고 자원 집약적인 특성으로 인해, 목표 도메인의 특정 요구사항을 흔히 초과한다. 이러한 비효율을 해소하기 위해, 본 연구는 Vision Transformer(ViT) 아키텍처 최적화를 위한 유전 알고리즘 기반 신경망 아키텍처 탐색(Genetic Algorithm-based Neural Architecture Search, GA-NAS) 프레임워크인 ViT-Slim을 제안한다. ViT-Slim은 유전 알고리즘의 강점을 활용하여 설계 구성의 탐색과 최적화를 수행함으로써 모델 크기와 성능의 균형을 맞춘다. 또한 프레임워크는 유도 편향을 주입하기 위해 Dense Relative Localization(DrLoc)을 통합하여, 데이터가 제한된 상황에서도 맞춤 데이터셋을 효율적으로 처리하는 ViT의 능력을 향상시킨다. 맞춤 depth 데이터셋에 대한 실험적 검증 결과, ViT-Slim은 기준 ViT-Small과 비교하여 정확도 손실이 1% 미만인 상태에서 메모리 사용량을 최대 79.18%, 파라미터를 83.09%까지 감소시키며 유의미한 자원 효율성을 달성함을 확인하였다. 아울러 ViT-Slim이 생성한 아키텍처는 경량 CNN 모델에 비해 FLOPs 및 파라미터 사용 측면에서 더 우수한 효율성을 보였으며, 실제 산업 환경의 문제를 해결하기 위한 확장 가능하고 실용적인 해법으로서의 잠재력을 입증한다.

https://doi.org/10.1109/cai64502.2025.00142

Computer science

Transformer

Genetic algorithm

Artificial intelligence

Computer vision

Machine learning

Electrical engineering

Engineering

Voltage

Article

인용수 0

2025

MAGNETO: A Genetic Algorithm-Based Power-Aware Mapping Optimization Framework for Mobile NPUs

Eunjin Lee, Jiho Lee, Hayoung Lim, Jaehyeong Sim

MAGNETO는 엄격한 전력 제약 하에서 딥 신경망의 계층을 신경 처리 장치에 매핑하기 위한 전력 인지적 유전 탐색 프레임워크이다. MAGNETO는 패널티 기반 제약 집행 메커니즘과 에너지-지연 곱(Energy-delay product) 지향의 적합도 함수를 통합하여, 지연과 에너지 효율의 균형을 이루는 해로 매핑 탐색을 유도한다. 전통적인 매핑 전략과 달리 MAGNETO는 각 계층의 연산 및 메모리 접근 특성에 맞춘 고품질 매핑을 발견하기 위해 매핑 구성을 동적으로 탐색한다. 합성곱 계층, 일반 행렬 곱셈 계층, 선형 계층을 포함한 다양한 계층 유형에 대해 광범위한 실험을 수행한 결과, MAGNETO는 TOPS/W와 MAC당 에너지 측면에서 기준 성능 전략을 일관되게 능가함을 보여주었다. 특히 MAGNETO는 엄격한 1 W 전력 예산 하에서도 낮은 지연과 효율적인 에너지 사용을 모두 달성하여, 지연-에너지 트레이드오프에서 경쟁력 있거나 더 우수한 성능을 나타낸다. 본 연구 결과는 전력 제약 하에서의 탐색 기반 매핑이 엣지 환경의 NPU에서 실시간의 에너지 효율적인 추론을 구현할 잠재력이 있음을 시사한다.

https://doi.org/10.1109/ccci65983.2025.11215145

Inference

Latency (audio)

Artificial neural network

Matrix multiplication

Constraint (computer-aided design)

Power (physics)

Optimization problem

Energy (signal processing)

Genetic algorithm

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

Article

인용수 0

2026

SHARP: Structured Hierarchical Attention Rank Projection for Efficient Language Model Distillation

Jieui Kang, Eunjeong Yoo, Soeun Choi, Yeonhui Kim, Jaehyeong Sim

IF 3.6 (2026)

IEEE Access

https://doi.org/10.1109/access.2026.3677560

Projection (relational algebra)

Rank (graph theory)

Distillation

Data modeling

Language model

Hierarchical database model

Article

인용수 0

2026

QubitCache: Quantum-Inspired Probabilistic Attention Preservation for KV-Cache Compression

Jieui Kang, Jaeyoung Choi, Wonhui Noh, Jaehyeong Sim

IF 3.6 (2026)

IEEE Access

https://doi.org/10.1109/access.2026.3680126

Probabilistic logic

Compression (physics)

Data compression

Compression artifact

Pattern recognition (psychology)

Article

인용수 0

2025

PRISM-Med: Parameter-Efficient Robust Interdomain Specialty Model for Medical Language Tasks

Jieui Kang, Hyungon Ryu, Jaehyeong Sim

IF 3.6 (2025)

IEEE Access

https://doi.org/10.1109/access.2024.3525041

Computer science

Specialty

Prism

Language model

Artificial intelligence

Medicine

Optics

Family medicine

Article

인용수 4

2024

Q-LAtte: An Efficient and Versatile LSTM Model for Quantized Attention-Based Time Series Forecasting in Building Energy Applications

Jieui Kang, Ji-Hye Park, Soeun Choi, Jaehyeong Sim

IF 3.6 (2024)

IEEE Access

https://doi.org/10.1109/access.2024.3400588

Quantization (signal processing)

Computer science

Efficient energy use

Edge device

Time series

Algorithm

Artificial intelligence

Machine learning

Cloud computing

Article

인용수 3

2024

SpDRAM: Efficient In-DRAM Acceleration of Sparse Matrix-Vector Multiplication

Jieui Kang, Soeun Choi, Eunjin Lee, Jaehyeong Sim

IF 3.6 (2024)

IEEE Access

7.54 \times

및 에너지 효율이

22.4 \times

향상된 것으로 나타났다.

https://doi.org/10.1109/access.2024.3505622

Dram

Acceleration

Computer science

Sparse matrix

Parallel computing

Multiplication (music)

Matrix multiplication

Matrix (chemical analysis)

Matrix algebra

Computational science

전체 논문

Article

인용수 0

2026

SHARP: Structured Hierarchical Attention Rank Projection for Efficient Language Model Distillation

Jieui Kang, Eunjeong Yoo, Soeun Choi, Yeonhui Kim, Jaehyeong Sim

IF 3.6 (2026)

IEEE Access

https://doi.org/10.1109/access.2026.3677560

Projection (relational algebra)

Rank (graph theory)

Distillation

Data modeling

Language model

Hierarchical database model

Article

인용수 0

2026

QubitCache: Quantum-Inspired Probabilistic Attention Preservation for KV-Cache Compression

Jieui Kang, Jaeyoung Choi, Wonhui Noh, Jaehyeong Sim

IF 3.6 (2026)

IEEE Access

https://doi.org/10.1109/access.2026.3680126

Probabilistic logic

Compression (physics)

Data compression

Compression artifact

Pattern recognition (psychology)

Article

인용수 0

2025

PRISM-Med: Parameter-Efficient Robust Interdomain Specialty Model for Medical Language Tasks

Jieui Kang, Hyungon Ryu, Jaehyeong Sim

IF 3.6 (2025)

IEEE Access

https://doi.org/10.1109/access.2024.3525041

Computer science

Specialty

Prism

Language model

Artificial intelligence

Medicine

Optics

Family medicine

Article

인용수 4

2024

Q-LAtte: An Efficient and Versatile LSTM Model for Quantized Attention-Based Time Series Forecasting in Building Energy Applications

Jieui Kang, Ji-Hye Park, Soeun Choi, Jaehyeong Sim

IF 3.6 (2024)

IEEE Access

https://doi.org/10.1109/access.2024.3400588

Quantization (signal processing)

Computer science

Efficient energy use

Edge device

Time series

Algorithm

Artificial intelligence

Machine learning

Cloud computing

Article

인용수 3

2024

SpDRAM: Efficient In-DRAM Acceleration of Sparse Matrix-Vector Multiplication

Jieui Kang, Soeun Choi, Eunjin Lee, Jaehyeong Sim

IF 3.6 (2024)

IEEE Access

7.54 \times

및 에너지 효율이

22.4 \times

향상된 것으로 나타났다.

https://doi.org/10.1109/access.2024.3505622

Dram

Acceleration

Computer science

Sparse matrix

Parallel computing

Multiplication (music)

Matrix multiplication

Matrix (chemical analysis)

Matrix algebra

Computational science

Preprint

인용수 0

2026

CLIP-RD: Relative Distillation for Efficient CLIP Knowledge Distillation

Jeannie Chung, Hanna Jang, Ingyeong Yang, Uiwon Hwang, Jaehyeong Sim

arXiv (Cornell University)

https://doi.org/10.48550/arxiv.2603.25383

Distillation

Embedding

Consistency (knowledge bases)

Relational database

Similarity (geometry)

Statistical relational learning

Article

인용수 0

2025

GATHER: A Gated-Attention Accelerator for Efficient LLM Inference

Eunjin Lee, Eunseo Kim, Eunjoung Yoo, Jaehyeong Sim

https://doi.org/10.1109/isocc66390.2025.11329547

Bottleneck

Inference

Memory bandwidth

Salient

Key (lock)

Efficient energy use

Throughput

Selection (genetic algorithm)

Bandwidth (computing)

Article

인용수 0

2025

LoRA-PIM: In-Memory Delta-Weight Injection for Multi-Adapter LLM Serving

Soeun Choi, Jaehyeong Sim

https://doi.org/10.1109/isocc66390.2025.11329773

Swap (finance)

Latency (audio)

Overlay

Architecture

Energy consumption

Energy (signal processing)

Article

인용수 1

2025

ViT-Slim: A Genetic Algorithm-based NAS Framework for Efficient Vision Transformer Design

Eunjoung Yoo, Jaehyeong Sim

https://doi.org/10.1109/cai64502.2025.00142

Computer science

Transformer

Genetic algorithm

Artificial intelligence

Computer vision

Machine learning

Electrical engineering

Engineering

Voltage

Article

인용수 0

2025

MAGNETO: A Genetic Algorithm-Based Power-Aware Mapping Optimization Framework for Mobile NPUs

Eunjin Lee, Jiho Lee, Hayoung Lim, Jaehyeong Sim

https://doi.org/10.1109/ccci65983.2025.11215145

Inference

Latency (audio)

Artificial neural network

Matrix multiplication

Constraint (computer-aided design)

Power (physics)

Optimization problem

Energy (signal processing)

Genetic algorithm