Neural Implicit Representations for Object-Centric Machine Vision Tasks | 강제원 교수 연구실 | 이화여자대학교 융합전자반도체공학부

강제원 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 0

·2025

Neural Implicit Representations for Object-Centric Machine Vision Tasks

Yeoneui Kim, Je‐Won Kang

초록

기계용 비디오 코딩(Video Coding for Machines, VCM)은 비디오 데이터의 빠른 증가와 저비트레이트 제약 하에서도 높은 정확도를 요구하는 기계 비전 시스템에 대한 수요가 커지면서 점점 더 중요해지고 있다. 압축 효율성과 강력한 압축 능력으로 알려진 암시적 신경 표현(Implicit Neural Representations, INRs)은 유망한 방향을 제공한다. 본 논문에서는 기계 비전을 위한 새로운 INR 프레임워크를 제안한다. 인간의 지각에 초점을 맞춘 선행 INR 방법들과 달리, 우리의 모델은 신경망에 객체 인지 정보를 내장한다. 구체적으로, 디코더 가중치는 객체 중심의 잠재 코드(object-centric latent codes)에 조건을 건 동적 네트워크를 사용하여 동적으로 생성되며, 이를 통해 객체 인지 기반의 복원을 가능하게 한다. 실험 결과, 본 방법은 비디오 압축과 기계 비전 작업 전반에서 다양한 INR 기준 모델들에 대해 일관된 성능 향상을 보였다. 본 방법은 객체 검출에서 기준 모델 대비 최대 6% 더 높은 정확도와 60% 이상의 비트레이트 감소를 달성했으며, 저비트레이트 영역에서는 최근의 표준 코덱보다도 더 우수한 성능을 보였다. 의미론적 분할의 경우에도 6% 이상의 정확도 향상과 주목할 만한 비트레이트 절감 효과를 제공하여 VCM에서의 효율성을 입증한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

CodecArtificial neural networkData compressionCoding (social sciences)Machine visionDeep neural networksEncoding (memory)Reduction (mathematics)

타입

article

IF / 인용수

- / 0

원문

https://doi.org/10.1109/apsipaasc65261.2025.11249403

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)