RnDCircle Logo
강제원 연구실
이화여자대학교 융합전자반도체공학부 강제원 교수
비디오 코딩
멀티뷰 영상 처리
신경 표현 기반 영상 모델링
강제원 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원

강제원 연구실

이화여자대학교 융합전자반도체공학부 강제원 교수

강제원 연구실은 영상신호 기반 시각정보처리와 영상/멀티모달 압축·재구성 기술을 중심으로 연구를 수행합니다. 멀티뷰 영상에서는 모션 선행정보, in-loop 필터링, 계층 예측을 통해 압축 아티팩트를 줄이고 rate-distortion 효율을 개선합니다. 또한 저랭크 텐서 분해와 spatiotemporal spectra-preserving 신경 표현으로 영상 모델링과 압축의 정보 손실을 다룹니다. 멀티스펙트럴 영상에서는 표면 반사 모델링과 spectral unmixing 기반 조명 스펙트럼 추정 및 데이터 구축을 수행합니다. 한편 EEG 수면 단계 분류에서는 adversarial transformation과 class-wise 강건성으로 노이즈에 대한 성능 저하를 완화하는 연구를 병행합니다.

비디오 코딩멀티뷰 영상 처리신경 표현 기반 영상 모델링저랭크 텐서 분해멀티스펙트럴 영상 처리
대표 연구 분야
연구 영역 전체보기
멀티뷰·멀티스펙트럴 비주얼 신호의 신경 표현학습 기반 코딩 및 재구성 thumbnail
멀티뷰·멀티스펙트럴 비주얼 신호의 신경 표현학습 기반 코딩 및 재구성
Neural representation for multi-view and multispectral visual signals: coding and reconstruction
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

32총합

5개년 연도별 피인용 수

585총합
주요 논문
5
논문 전체보기
1
article
|
·
인용수 0
·
2026
Spatio-Temporal Spectra-Preserving Neural Representation for Video Modeling
Jina Kim, Je‐Won Kang
IF 6 (2026)
ACM Transactions on Multimedia Computing Communications and Applications
그린 러닝(GL)은 에너지 효율적인 해법과 경량 모델에 중점을 두어 딥러닝에서의 지속가능성을 촉진한다. 비디오를 위한 암시적 신경 표현(INR)은 이러한 패러다임 안에서 비디오 표현을 위한 소형화되고 효율적인 접근을 제공한다. 본 연구는 학습을 향상시키기 위해 신경 접선 커널(neural tangent kernel, NTK) 분석을 활용하는 비디오용 시공간적(sptatiotemporal) 스펙트럼 보존 신경 표현인 SNeRV+를 소개한다. 공간 및 시간 영역 모두에서 스펙트럼 편향을 완화하기 위해, SNeRV+는 2단계 처리 접근을 사용하며, 서로 다른 인코더 가지(encoder branch)가 저주파(LF)와 고주파(HF) 구성요소를 각각 처리한다. 3차원 이산 웨이블릿 변환(3-dimensional discrete wavelet transform)은 각 프레임을 시간적 변이(temporal variations)로 분해하고, LF와 HF 구성요소를 프레임 단위 임베딩으로 인코딩한다. 정적 장면과 안정적인 움직임을 포착하는 LF 구성요소는 프레임 전반에 걸쳐 고정 파라미터로 디코딩되어 시간적 불일치를 줄이고 스펙트럼 편향을 완화한다. 시간에 따라 변하는 세부 정보를 인코딩하는 HF 구성요소는 LF 관련 파라미터를 사전 정보(prior information)로 활용하는 시간적으로 적응적인 가중치(temporally adaptive weights)로 동적으로 재구성된다. 이러한 설계는 시간적 변이를 보다 효율적이고 소형화된 형태로 표현할 수 있게 한다. 실험 결과는 SNeRV+가 비디오 회귀, 보간, 외삽 및 압축에서 기존의 INR 기반 최첨단 방법을 능가하며, 정량적 평가 지표와 정성적 평가 지표 모두에서 우수한 성능을 달성함을 보여준다.
https://doi.org/10.1145/3796711
Leverage (statistics)
Representation (politics)
ENCODE
Pattern recognition (psychology)
Encoder
Kernel (algebra)
Encoding (memory)
Frame (networking)
2
article
|
·
인용수 0
·
2025
Label Space-Induced Pseudo Label Refinement for Multi-Source Black-Box Domain Adaptation
Chaehwa Yoo, Xiaofeng Liu, Fangxu Xing, Jonghye Woo, Je‐Won Kang
IF 13.7 (2025)
IEEE Transactions on Image Processing
기존의 비지도 도메인 적응(UDA)은 소스 데이터 및/또는 소스 모델 파라미터에 접근이 필요하므로, 개인정보 보호, 보안, 지적 재산권 측면에서 실용적 적용이 제한된다. 최근의 블랙박스 UDA(BDA)는 단일 캡슐화된 소스 응용 프로그램 프로그래밍 인터페이스(API) 예측으로부터 의사 레이블을 정의함으로써 이러한 제약을 완화하여, 타깃 모델에 대한 자기학습이 가능해진다. 그럼에도 불구하고 기존 방법들은 다중 소스 설정을 고려하는 데 한계가 있는데, 이 설정에서는 여러 소스 도메인 API가 존재하여 의사 레이블을 생성할 수 있다. 본 연구에서는 다중 소스 BDA(MSBDA)를 위한 새로운 학습 프레임워크인 Label Space-Induced Pseudo Label Refinement(LPR)을 제안한다. 구체적으로 LPR은 소스 API의 예측만을 사용하여 타깃 도메인에 조건화된 상태에서 소스 도메인들 간의 관계를 학습하는 Pseudo label Refinery Network(PRN)를 포함한다. 타깃 모델은 PRN의 두 단계(dual phases)에 의해 적응된다. 첫째, 예측에 포함된 잡음 샘플로 인한 실패를 방지하고 초기 의사 레이블을 제공하기 위한 웜업(warm-up) 단계를 목표로 하며, 이어서 도메인 관계 탐색을 수행하는 레이블 정제(label refinement) 단계를 진행한다. LPR의 메커니즘에 대해 이론적 근거를 제공한다. 네 개의 벤치마크 데이터셋에 대한 실험 결과는, LPR을 사용하는 MSBDA가 서로 다른 DA 설정에서 최신 접근법들과 비교 가능한 성능을 달성함을 보여준다.
https://doi.org/10.1109/tip.2025.3570220
Black box
Computer science
Space (punctuation)
Artificial intelligence
Pattern recognition (psychology)
Algorithm
3
article
|
·
인용수 2
·
2025
Neural Volumetric Video Coding With Hierarchical Coded Representation of Dynamic Volume
Ju Yeon Shin, Jung-Kyung Lee, Gun Bang, Jun-Sik Kim, Je‐Won Kang
IF 9.7 (2025)
IEEE Transactions on Multimedia
이 논문은 다중 시점(MV) 비디오 부호화를 위한 새로운 기법을 제안하며, 특히 새로운 시점 합성에서 부호화 효율을 향상시키기 위해 4차원(4D) 복셀 그리드 표현을 활용한다. 복셀 그리드 근사는 동적 장면을 연속적으로 나타내는 표현을 제공하지만, 부피(체적) 기반의 특성 때문에 상당한 저장 용량이 요구된다. MV 비디오의 압축은 조밀한 특징(dense features)의 압축으로 해석될 수 있다. 그러나 이러한 특징의 크기가 임의의 시점에서의 동적 장면 생성을 고려할 때 큰 문제를 야기한다. 이를 해결하기 위해, 본 연구에서는 체적 특징의 저랭크 텐서 분해에 기반한 동적 볼륨의 계층적 부호화 표현을 도입하고, 이 표현에 근거한 효과적인 부호화 기법을 개발한다. 제안된 방법은 분해된 특징의 시간적 특성을 포착하기 위해 2단계 부호화 전략을 사용한다. 상위 수준에서는 3D 구조 정보를 나타내는 공간 특징을 부호화하며, 이는 MV 비디오 시퀀스의 짧은 구간 동안 시간에 대해 불변인 성분을 포함한다. 하위 수준에서는 현재 장면의 동역학을 포착하기 위해 시간 특징을 부호화한다. 공간 특징은 하나의 그룹에서 공유되며, 시간 특징은 각 시간 스텝에서 부호화된다. 실험 결과는 제안된 기법이 기존의 MV 비디오 부호화 표준 및 현재의 최첨단 방법을 능가하며, MV 비디오 압축의 새로운 시점 합성에서 더 우수한 전송률-왜곡(rate-distortion) 성능을 제공함을 보여준다.
https://doi.org/10.1109/tmm.2025.3544415
Computer science
Coding (social sciences)
Volume (thermodynamics)
Artificial intelligence
Representation (politics)
Computer vision
Pattern recognition (psychology)
최신 정부 과제
53
과제 전체보기
1
2025년 8월-2028년 8월
|197,179,000
디지털미디어 산업 혁신을 위한 롱폼 비디오의 고차원 의미 추론 및 멀티모달 표현학습에 관한 인공지능 원천기술 개발
본 연구는 시간 및 공간적으로 변화가 큰 대용량 롱폼 비디오에 대해 고차원 의미 추론이 가능한 멀티모달 표현 학습 모델을 개발함으로써 실감형 미디어, 콘텐츠의 장기 맥락 이해와 입체 공간 분석에 관한 핵심 원천 기술을 확보하고 디지털 미디어, 콘텐츠 산업 분야 생산성 증대를 위해 연구 성과를 응용 확산하는 것을 목표로 함.
롱폼 비디오
입체 공간 비디오
멀티모달
디지털미디어
디지털콘텐츠
2
2024년 6월-2026년 12월
|1,357,155,000
AI 기반 실시간 콘텐츠 제작 및 글로벌 유통을 위한 실·가상 융합 방송 자동 영상 생성 기술개발
글로벌 원격지에 있는 방송 참여자와 관객이 가상공간에서 쌍방향으로 참여할 수 있는 실·가상 융합서비스를 위한 저작도구와 IP 기반 중계 플랫폼을 개발함. 또, 이를 효과적으로 전세계에 유통할 수 있도록 인공지능 거대언어모델(LLM)을 활용해 자동 번역 서비스 등을 제공하고, K-콘텐츠를 다양한 버티컬 서비스 형태의 2차 유통 영상으로 자동 제작할 수 있는 ...
가상 융합 방송
멀티모달 AI
실시간 IP 송출
버추얼 크리에이터
AI 쇼츠 요약
3
2024년 6월-2026년 12월
|678,578,000
AI 기반 실시간 콘텐츠 제작 및 글로벌 유통을 위한 실·가상 융합 방송 자동 영상 생성 기술개발
글로벌 원격지에 있는 방송 참여자와 관객이 가상공간에서 쌍방향으로 참여할 수 있는 실·가상 융합서비스를 위한 저작도구와 IP 기반 중계 플랫폼을 개발함. 또, 이를 효과적으로 전세계에 유통할 수 있도록 인공지능 거대언어모델(LLM)을 활용해 자동 번역 서비스 등을 제공하고, K-콘텐츠를 다양한 버티컬 서비스 형태의 2차 유통 영상으로 자동 제작할 수 있는 ...
가상 융합 방송
멀티모달 AI
실시간 IP 송출
버추얼 크리에이터
AI 쇼츠 요약
최신 특허
특허 전체보기
상태출원연도과제명출원번호상세정보
공개2025코딩 툴들을 제어하는 방법 및 장치1020250151981
공개2025템플릿 매칭 기반 예측에서 주관적 화질을 향상시키는 방법1020250053059
공개2025인트라 예측에서 외삽 필터를 이용하는 비디오 코딩방법 및 장치1020250048525
전체 특허

코딩 툴들을 제어하는 방법 및 장치

상태
공개
출원연도
2025
출원번호
1020250151981

템플릿 매칭 기반 예측에서 주관적 화질을 향상시키는 방법

상태
공개
출원연도
2025
출원번호
1020250053059

인트라 예측에서 외삽 필터를 이용하는 비디오 코딩방법 및 장치

상태
공개
출원연도
2025
출원번호
1020250048525

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.