심재형 교수 연구실 | 이화여자대학교 컴퓨터공학과

심재형 연구실

이화여자대학교 컴퓨터공학과 심재형 교수

에너지 효율적 추론

Processing-in-Memory(PIM)

in-DRAM 가속

|심재형 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

홈

심재형 연구실

이화여자대학교 컴퓨터공학과 심재형 교수

심재형 연구실은 컴퓨터공학과 기반으로 딥러닝 추론의 병목을 연산·메모리·전력 관점에서 분석하고 효율화하는 연구를 수행합니다. DRAM 및 eDRAM 구조를 활용한 in-DRAM 가속, Processing-in-Memory 기반 LoRA 델타 적용, 토큰 스트림과 Top-K 선택을 결합한 아키텍처를 개발합니다. 또한 모델 경량화를 위해 유전 알고리즘 기반 NAS, 분포 보존 양자화, 무감독 도메인 분리 적응을 적용합니다. 장문 추론에서는 KV cache를 구조 보존형 압축으로 개선하고, 증류에서는 어텐션 계층과 임베딩 관계를 보존하는 방법을 연구합니다.

에너지 효율적 추론Processing-in-Memory(PIM)in-DRAM 가속LoRA지식 증류

대표 연구 분야

연구 영역 전체보기

PIM·in-DRAM 기반 에너지 효율 추론 가속

Energy-Efficient Inference Acceleration with PIM and in-DRAM

연구 분야 상세보기

PIM·in-DRAM 기반 에너지 효율 추론 가속

Energy-Efficient Inference Acceleration with PIM and in-DRAM

연구 분야 상세보기

NAS·양자화·도메인 적응으로 경량화하는 AI 모델 설계

Model Efficientization via NAS, Quantization, and Domain Adaptation

연구 분야 상세보기

관심 구조 보존형 지식 전이와 KV 캐시 압축

Attention-Structure-Preserving Knowledge Transfer and KV Cache Compression

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

14총합

5개년 연도별 피인용 수

87총합

주요 논문

논문 전체보기

Article

인용수 0

2026

SHARP: Structured Hierarchical Attention Rank Projection for Efficient Language Model Distillation

Jieui Kang, Eunjeong Yoo, Soeun Choi, Yeonhui Kim, Jaehyeong Sim

IF 3.6 (2026)

IEEE Access

지식 증류(knowledge distillation)는 대규모 언어 모델을 배포 가능한 더 작은 형태로 압축하기 위한 핵심 기법으로 부상하였다. 기존 접근법은 토큰, 구(phrase), 시퀀스와 같은 길이 기반 언어 단위 수준에서 지식을 전달하는 데 초점을 맞추고 있으나, 현대 트랜스포머 아키텍처의 본질적인 계층적 어텐션 메커니즘을 충분히 포착하지 못하는 경우가 많다. 또한 여러 단위 수준이 하나의 표현 공간을 공유할 때, 동일한 용량(capacity)을 두고 경쟁하게 되어 상호 보완적 정보가 소실된다. 우리는 이러한 현상을 표현 붕괴(representation collapse)라고 명명한다. 이 한계를 해결하기 위해, 우리는 SHARP(Structured Hierarchical Attention Rank Projection)를 제안한다. SHARP는 어텐션 패턴을 토큰 수준, 헤드(head) 수준, 레이어(layer) 수준의 표현으로 분해하고, 각 표현을 증류 이전에 전용의 직교(orthogonal) 부분공간에 사영(project)하는 새로운 증류 프레임워크이다. 이러한 수학적 분해는 각 단위 수준에 독립적인 표현 용량을 부여하여 간섭을 방지하는 동시에 병렬 최적화 경로를 가능하게 한다. 교사 모델의 파라미터 규모가 350M에서 6.7B에 이르는 상황에서, NLG(자연어 생성) 및 NLU(자연어 이해) 과제 전반에 대해 125M 파라미터 학생 모델로 증류하는 대규모 실험을 수행한 결과, SHARP는 기존 증류 방법을 일관되게 능가하였다. SHARP는 NLG 과제에서 가장 강력한 기준선 대비 평균 5.2%의 퍼플렉서티(perplexity) 감소를 달성하였으며, 6.7B 교사 구성에서는 그 개선 폭이 7.8%까지 도달하였다. NLU 과제에서는 모든 모델 규모에 걸쳐 1.5~3.2%의 일관된 정확도 향상을 보였다. 이러한 결과는 직교 용량 할당이 대규모 언어 모델 압축에서 다중 단위 수준 지식 전달을 위한 효과적인 원리임을 확인해준다.

https://doi.org/10.1109/access.2026.3677560

Projection (relational algebra)

Rank (graph theory)

Distillation

Data modeling

Language model

Hierarchical database model

Article

인용수 0

2026

QubitCache: Quantum-Inspired Probabilistic Attention Preservation for KV-Cache Compression

Jieui Kang, Jaeyoung Choi, Wonhui Noh, Jaehyeong Sim

IF 3.6 (2026)

IEEE Access

대규모 언어 모델의 추론은 KV 캐시로 인한 치명적인 메모리 병목에 직면해 있으며, 이는 시퀀스 길이에 따라 선형적으로 증가하고 장문 컨텍스트 생성 동안 GPU 메모리의 대부분을 지배한다. 기존 압축 방법은 토큰을 제거(eviction)하여 메모리를 줄이지만, 복잡한 추론에 필수적인 주의(attention) 관계를 되돌릴 수 없이 폐기한다. 우리는 KV 캐시 압축을 토큰 선택이 아니라 주의 분포(attention distribution) 압축으로 재구성하는 프레임워크인 QubitCache를 제시한다. 우리의 접근은 quantum-inspired 수학적 형식(양자 컴퓨팅의 계층적 진폭 인코딩(hierarchical amplitude encoding) 구조를 고전적 확률 분포 압축기로 사용하되, 양자 하드웨어는 요구하지 않음)을 활용하여 로그 매개변수 공간에서 주의 가중치 분포를 표현한다. QubitCache는 하이브리드 아키텍처를 도입한다. 즉, 핵심 토큰(시퀀스의 15%)은 고정밀 고전 저장소에 그대로 유지하는 반면, 나머지 토큰에 대한 주의 분포는 계층적 진폭 인코딩을 사용해 압축하며 세그먼트당 57× 매개변수 감소를 달성한다. 우리는 파이프라인 출력 오차가 압축된 토큰에 할당된 주의 질량(attention mass)의 비율에 의해 상계됨을 보이는 형식적 분석을 제공하며, 이는 고유한 주의 희소성(정리 1)으로 인해 작다(≤15%). 우리의 설계에서 중요한 성질은, 압축 분포가 프리필(prefill) 이후 고정되며 따라서 디코딩 동안 질의-비의존적(query-agnostic)이라는 점이다. 우리는 이러한 트레이드오프의 함의를 분석하고, 그 결과 λ_mass 안정성이 평가된 과제들에 대해 충분함을 경험적으로 입증한다. 추론 과정에서 압축 분포는 소프트 주의 가중치를 제공하기 위해 재구성되며, 압축된 토큰의 맥락적 영향은 이진(binary) 결정이 아닌 확률적 결정(probabilistic)으로 유지된다. 우리는 QubitCache를 16개의 LongBench 과제와 RULER 벤치마크에 걸쳐 4개의 장문 컨텍스트 모델에서 평가하고, 고전적 기준선(H2O, SnapKV) 및 최근 방법(MiniKV, Compactor)과 비교한다. QubitCache는 약 6.7×의 메모리 감소를 달성하면서도 전체 KV 성능의 91–99%를 유지하며, RULER에서 평균 74.8을 기록해 토큰 제거 기반 기준선보다 10.5점 높다. 지연 시간 분석은 토큰당 디코드 오버헤드가 제거 기반 방법 대비 2× 이내로 유지됨을 확인한다. 민감도, 양자화 통합, 실패 사례를 포함하는 포괄적 분석을 통해, 이 접근이 성공하는 조건과 한계가 있는 지점을 규명한다.

https://doi.org/10.1109/access.2026.3680126

Probabilistic logic

Compression (physics)

Data compression

Compression artifact

Pattern recognition (psychology)

Article

인용수 0

2025

PRISM-Med: Parameter-Efficient Robust Interdomain Specialty Model for Medical Language Tasks

Jieui Kang, Hyungon Ryu, Jaehyeong Sim

IF 3.6 (2025)

IEEE Access

언어 모델(LM)은 의료 분야 응용에서 주목할 만한 잠재력을 보여주었으나, 다양한 의료 전문 분야에 걸쳐 일관된 성능을 달성하면서도 매개변수 효율성을 유지하는 데 어려움이 있어 광범위한 도입이 제한된다. 의료 과제를 위한 언어 모델의 현재 미세조정 접근법은 종종 막대한 연산 자원을 필요로 하며, 서로 다른 도메인 전반에 걸쳐 전문화된 의학 지식을 관리하는 문제를 해결하기 어렵다. 이러한 과제를 해결하기 위해 본 연구에서는 비지도 도메인 분리 및 전문화 적응을 통해 도메인 특화 성능을 향상시키는 새로운 프레임워크 PRISM-Med(Parameter-efficient Robust Interdomain Specialty Model)를 제안한다. 우리의 프레임워크는 세 가지 핵심 혁신을 포함한다: (1) 의학 말뭉치 내에서 최적의 지식 경계를 자동으로 발견하는 비지도 도메인 구분자, (2) 전문화된 지식을 보존하면서도 효율적으로 매개변수를 활용할 수 있게 하는 도메인 특화 Low-Rank Adaptation(LoRA) 전략, (3) 추론 과정에서 가장 관련 있는 도메인 특화 모델을 동적으로 선택하는 신경망 기반 도메인 검출기이다. MedProb, MedNER, MedQuAD의 여러 의학 벤치마크에 대한 포괄적 실험 평가를 통해, PRISM-Med가 전통적 미세조정 기준선 대비 의학 QA 과제에서 최대 10.1%, 의학 지식 평가에서 2.7%의 향상을 포함하여 일관된 성능 개선을 달성함을 보여준다. 특히, 본 프레임워크는 전통적 미세조정 접근법에 필요한 매개변수의 0.1%~0.4%만 사용하면서도 이러한 향상을 달성한다. PRISM-Med는 효율적이고 견고한 의료 언어 모델을 개발하는 데 있어 중요한 진전을 представ하며, 성능과 연산 효율 모두가 핵심적으로 요구되는 전문 의료 응용을 위한 실용적인 해결책을 제공한다.

https://doi.org/10.1109/access.2024.3525041

Computer science

Specialty

Prism

Language model

Artificial intelligence

Medicine

Optics

Family medicine

최신 정부 과제

과제 전체보기

2025년 5월-2028년 5월

|500,000,000원

에너지 효율적 범용 멀티 모달 AI를 위한 복합 연산 가속기 기초 연구실

- 기존 AI 모델은 단일 유형의 입력을 통해 학습하며 높은 예측 정확도를 보여주고 있음. 그러나 이러한 유니 모달 학습에는 보정된 데이터를 필요로 하며, 입력값에 노이즈가 있을 경우 추론 결과에 영향을 미칠 수 있음. 이로 인해 인간의 학습 및 추론 방식과 유사한 멀티 모달 AI에 대한 관심이 증가하고 있음- 멀티 모달 AI는 여러 유형의 입력을 기반으로...

멀티모달 인공지능

복합 연산 가속기

복합 CPU/GPU/NPU/SPU 가속기

범용 멀티 모달

에너지 효율적

주관|

2023년 6월-2026년 12월

|900,000,000원

인공지능융합혁신인재양성(부산대학교)

1. AI+제조·물류 연구 1) 동남권 소재 제조 기업의 애로 및 수요 기술 개발을 위한 데이터 수집/저장/분석 및 불량 예측 및 이상 감지, 상황인지/분석 등 융합 AI 요소 기술 개발 및 기업 수요 기반 AI 응용 기술 개발 - [AI+제조·물류 제1프로젝트] : ㈜현대중공업빅데이터 분석 기반 선박 엔진 이상 진단 모델 개발 - [AI+제조·물류 제2프로젝트] : ㈜삼성중공업시나리오별 블록 도장면 인식을 위한 딥러닝 모델 개발 - [AI+제조·물류 제3프로젝트] : ㈜해성디에스영상 기반 회로 불량 검출을 위한 AI 판별 모델 개발 - [AI+제조·물류 제4프로젝트] : ㈜코렌스XAI 기반 EGR 쿨러 생산 공정 불량 원인 분석 시스템 개발 - [AI+제조·물류 제5프로젝트] : ㈜슈어소프트테크 차량 시뮬레이터 기반 모빌리티 AI 기술 개발을 위한 데이터 수집 소프트웨어 제작 - [AI+제조·물류 제6프로젝트] : ㈜파나시아공장 내 차량 및 작업자 위험 상황 감별 시스템 개발 - [AI+제조·물류 제7프로젝트] : ㈜토탈소프트뱅크영상 기반의 항만 내 객체 인식, 추적 및 관리 솔루션 개발 - [AI+제조·물류 제8프로젝트] : ㈜그리드위즈신재생에너지 발전량, 전력 소비량 예측 프로그램 개발 - [AI+제조·물류 제9프로젝트] : ㈜동연에스엔티냉연강판 결함 데이터 증강 기술 및 결함 분류 모델 개발 - [AI+제조·물류 제10프로젝트] : ㈜워드포인츠 최적의 네트워크 성능 도출을 위한 Network Traffic Optimization모델 개발 - [AI+제조·물류 제11프로젝트] : ㈜평행공간3D 공간모델 및 LiDAR 센서 기반 자세 추정 기술 개발 - [AI+제조·물류 제12프로젝트] : ㈜토리아띠반려동물 대상 상태별 모션 추출 및 분류 - [AI+제조·물류 제13프로젝트] : ㈜나라인포테크 지식 그래프 임베딩 모형의 철자오류 교정 시스템 개발 2. AI+헬스케어 연구 - 부산대병원 및 의료기관의 애로 및 수요 기술 개발을 위한 의료데이터 수집/저장/분석 및 예측, 신약개발 등 융합 AI 요소 기술 개발 및 기업 수요 기반 AI 응용 기술 개발 - [AI+헬스케어 제1프로젝트] : 양산부산대학교병원 골수부종, 골다공증 환자 임상 영상 화질 개선 기법 개발 - [AI+헬스케어 제2프로젝트] : 씨젠의료재단나노센서 레이블 노이즈 극복을 위한 정형 데이터용 예측 모델 개발 - [AI+헬스케어 제3프로젝트] : 씨젠의료재단CT 패치 이미지 기반 담도암 진단 모델 개발 - [AI+헬스케어 제4프로젝트] : 씨젠의료재단병리 영상 압축기법 개발 - [AI+헬스케어 제5프로젝트] : ㈜휴이노 IoT 기술을 통한 심전도 데이터 전송/저장 및 알람 서비스 기술 개발 - [AI+헬스케어 제6프로젝트] : ㈜드래곤플라이소아ADHD 인지행동치료 메커니즘 기반 맞춤형 난이도 조절 기술 개발 - [AI+헬스케어 제7프로젝트] : ㈜호쿠쇼코리아의약품 물류 공정 최적화 컨베이어 기계작동 프로그램 개발 - [AI+헬스케어 제8프로젝트] : ㈜뉴클릭스바이오분자 구조 정보를 활용한 표적 단백질과 화합물 결합 예측 인공지능 모델 개발

인공지능

인력양성

제조 AI

헬스케어 AI

융합

2023년 6월-2026년 12월

|1,434,250,000원

인공지능융합혁신인재양성(부산대학교)

동남권 디지털 대전환을 선도하는 인공지능 기술 기반 글로벌 산학 인재 양성

인공지능

인력양성

제조 AI

헬스케어 AI

융합

최신 특허

특허 전체보기

상태	출원연도	과제명	출원번호
공개	2024	가중치 매트릭스를 이용한 메모리 연산 처리 장치 및 방법	1020240114013
등록	2024	비트 직렬 연산 처리 장치 및 방법	1020240108146
등록	2024	그래프 신경망을 이용하여 하드웨어 구조의 설계를 가속하는 하드웨어 구조 설계 장치 및 하드웨어 구조 설계 방법	1020240108145

전체 특허

가중치 매트릭스를 이용한 메모리 연산 처리 장치 및 방법

상태

공개

출원연도

2024

출원번호

1020240114013

상세 정보 바로가기

비트 직렬 연산 처리 장치 및 방법

상태

등록

출원연도

2024

출원번호

1020240108146

상세 정보 바로가기

그래프 신경망을 이용하여 하드웨어 구조의 설계를 가속하는 하드웨어 구조 설계 장치 및 하드웨어 구조 설계 방법

상태

등록

출원연도

2024

출원번호

1020240108145

상세 정보 바로가기