기계용 비디오 코딩(Video Coding for Machines, VCM)은 비디오 데이터의 빠른 증가와 저비트레이트 제약 하에서도 높은 정확도를 요구하는 기계 비전 시스템에 대한 수요가 커지면서 점점 더 중요해지고 있다. 압축 효율성과 강력한 압축 능력으로 알려진 암시적 신경 표현(Implicit Neural Representations, INRs)은 유망한 방향을 제공한다. 본 논문에서는 기계 비전을 위한 새로운 INR 프레임워크를 제안한다. 인간의 지각에 초점을 맞춘 선행 INR 방법들과 달리, 우리의 모델은 신경망에 객체 인지 정보를 내장한다. 구체적으로, 디코더 가중치는 객체 중심의 잠재 코드(object-centric latent codes)에 조건을 건 동적 네트워크를 사용하여 동적으로 생성되며, 이를 통해 객체 인지 기반의 복원을 가능하게 한다. 실험 결과, 본 방법은 비디오 압축과 기계 비전 작업 전반에서 다양한 INR 기준 모델들에 대해 일관된 성능 향상을 보였다. 본 방법은 객체 검출에서 기준 모델 대비 최대 6% 더 높은 정확도와 60% 이상의 비트레이트 감소를 달성했으며, 저비트레이트 영역에서는 최근의 표준 코덱보다도 더 우수한 성능을 보였다. 의미론적 분할의 경우에도 6% 이상의 정확도 향상과 주목할 만한 비트레이트 절감 효과를 제공하여 VCM에서의 효율성을 입증한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.