인간 중심 시각 데이터셋과 표현 학습
박재식 연구실은 사람의 얼굴, 시선, 손, 몸, 의복 등 복합적인 인간 표현을 이해하고 재현하기 위한 데이터셋 구축과 표현 학습 연구에도 강점을 보인다. 인간은 컴퓨터 비전에서 가장 복잡하고 중요한 대상으로, 자세 변화, 의복 다양성, 시점 차이, 비가시 영역, 조명 변화 등으로 인해 모델링이 매우 어렵다. 연구실은 이러한 난제를 해결하기 위해 대규모 다중 시점 데이터와 기하·외관 정보를 결합하는 연구를 진행해 왔다. 대표적으로 HUMBI 데이터셋은 100대가 넘는 동기화 카메라를 활용해 다양한 인종, 성별, 연령, 스타일의 사람을 촬영하고, 시선·얼굴·손·몸·의복을 함께 다루는 대규모 멀티뷰 벤치마크를 제시했다. 이는 사람의 표현을 2차원 이미지 수준이 아니라 3차원 기하와 시점 의존적 외관까지 포함해 학습할 수 있도록 지원한다. 관련 연구들은 pose-guided appearance rendering, articulated 3D shapes, human avatar reconstruction 등으로 이어지며, 인간 표현의 정밀 모델링과 자연스러운 재현을 가능하게 한다. 이러한 연구는 원격 실감회의, 소셜 텔레프레즌스, XR 아바타, 디지털 휴먼, 의료 재활, 인간-로봇 상호작용 등 다양한 분야에서 핵심 기반이 된다. 향후에는 인간 표현 이해가 단순 시각 복원을 넘어 행동 예측, 의도 추론, 멀티모달 상호작용으로 확장될 가능성이 높다. 연구실의 인간 중심 시각 연구는 데이터셋 구축, 벤치마크 설계, 학습 모델 개발을 유기적으로 결합한다는 점에서 학문적·산업적 가치가 모두 크다.
생성모델과 시각 기반 인공지능
연구실은 컴퓨터 비전의 전통적인 인식 문제를 넘어서, 이미지를 새롭게 생성하고 편집하며 보이지 않는 정보를 추론하는 생성형 인공지능 연구를 활발히 수행하고 있다. 이는 단순한 이미지 합성을 넘어 데이터 불균형 완화, 시각적 상식 기반 복원, 사람 아바타 생성, 장면 생성, 드래그 기반 이미지 편집 등으로 확장되고 있다. 특히 이미지와 공간 정보를 이해한 뒤 그 결과를 생성으로 연결하는 접근은 최근 연구실의 중요한 방향성으로 해석된다. StudioGAN 연구는 다양한 GAN 계열 모델을 통합적으로 비교·재현·평가할 수 있는 대규모 벤치마크 체계를 제시했다는 점에서 생성모델 연구 인프라 구축에 큰 의미가 있다. 또한 자기지도 학습을 통해 시각적 상식을 학습하고 영상에서 보이지 않는 부분을 복원하는 과제, 광학 흐름을 활용한 드래그 기반 이미지 편집 특허, 비디오로부터 사람 아바타를 복원하는 연구 등은 생성모델을 실제 문제 해결에 연결하는 사례들이다. 최근 과제들에서 생성형 AI의 경량화, 온디바이스 실행, 멀티모달 모델, 대화형 의료 보조 시스템까지 다루고 있다는 점은 연구 범위가 생성모델의 원리와 응용 모두를 포괄함을 보여준다. 이 연구 주제는 향후 인터랙티브 콘텐츠 제작, 의료 영상·응급의료 의사결정 지원, 제조 AI, 메타버스, 개인화된 디지털 휴먼 등 폭넓은 분야에서 활용될 수 있다. 연구실은 생성 품질만이 아니라 학습 안정성, 평가 공정성, 계산 효율, 실제 환경 적용성을 중시하는 것으로 보이며, 이는 생성형 AI 연구의 실용화를 이끄는 중요한 관점이다. 따라서 이 분야는 연구실이 컴퓨터 비전과 인공지능을 융합해 미래형 응용 시스템을 설계하는 대표적인 연구영역이라 할 수 있다.
3차원 시각 인식 및 공간 복원
박재식 연구실의 핵심 연구축 중 하나는 다중 시점 영상, 라이다, 깊이 센서, 비정형 영상 등 다양한 시각 데이터를 활용하여 실제 공간과 물체를 정밀하게 복원하는 기술이다. 연구실은 단순한 기하 복원에 머무르지 않고, 복원된 장면이 실제 환경을 얼마나 충실히 반영하는지, 그리고 후속 인식·조작·가시화 과제에 얼마나 유용하게 쓰일 수 있는지를 함께 고려한다. 이를 통해 실내외 장면, 도시 환경, 사람, 물체를 대상으로 하는 고품질 3차원 표현 학습과 장면 이해 문제를 지속적으로 다루고 있다. 대표 연구로는 광도 기반 3차원 형상 복원, 다중 시점 정합, 포인트 클라우드 매칭, 자유시점 재현, cm급 오차의 공간 복원, 실시간 장면 갱신 등이 있다. 특히 다중 시점 photometric stereo, global registration, colored point cloud registration, self-calibrating neural radiance fields와 같은 연구 성과는 기하학적 정밀도와 실제 적용 가능성을 동시에 높이는 방향으로 전개되어 왔다. 또한 비정형 영상과 거대 시차 조건에서도 안정적으로 카메라 구조를 추정하고 메쉬를 복원하는 기술은 메타버스, 디지털 트윈, XR 협업 환경에 직접 연결되는 연구로 볼 수 있다. 이 연구는 로봇의 공간 인지, 증강현실·가상현실, 원격 협업, 실감형 콘텐츠 제작, 자율 시스템의 환경 이해와 같은 응용 분야에서 높은 파급력을 가진다. 연구실은 향후 3차원 복원 정확도뿐 아니라 의미 이해, 실시간성, 경량화, 대규모 환경 대응 능력을 함께 강화하는 방향으로 발전할 가능성이 크다. 즉, 실제 세계를 디지털 공간으로 정밀하게 옮기고 이해하는 기반 기술을 구축한다는 점에서 본 연구주제는 연구실의 정체성을 가장 잘 드러내는 영역 중 하나이다.