시각정보처리와 패턴인식
이 연구 주제는 이미지와 비디오, 문서 영상, 필기 입력 등 다양한 시각 데이터를 컴퓨터가 이해할 수 있도록 분석하는 기술을 중심으로 한다. 연구실의 발표 논문과 저서 이력을 보면 문자 인식, 문서 영상 처리, 자연 영상 속 텍스트 검출, 비강체 객체 추적 등 전통적인 패턴인식과 컴퓨터 비전의 핵심 문제를 장기간 다루어 왔음을 확인할 수 있다. 특히 정형화된 스캔 문서뿐 아니라 실제 환경에서 획득되는 장면 영상과 손글씨처럼 변형이 크고 잡음이 많은 데이터에 대한 인식 성능 향상이 중요한 연구 목표로 보인다. 방법론 측면에서는 영상의 주파수 특성, 기하학적 특징, 경계 정보, 확률적 유사도 측정 등 고전적 비전 기법과 통계적 모델링이 함께 활용된다. 대표적으로 비강체 객체 추적 연구에서는 확률적 Hausdorff distance matching을 통해 형태 변화가 심한 대상도 안정적으로 추적하는 접근을 제시하였고, 장면 영상에서의 문자 검출 연구에서는 자연 이미지의 복잡한 배경 속에서 문자 영역을 구분하기 위한 특징 설계와 분류 전략을 다루었다. 이러한 연구는 단순 분류를 넘어서 탐지, 분할, 정합, 추적까지 포괄하는 시각정보처리 전반의 역량을 보여준다. 응용 측면에서 이 분야의 성과는 문서 디지털화, 장면 텍스트 인식, 영상 감시, 인간-컴퓨터 상호작용, 멀티미디어 검색 등으로 확장될 수 있다. 최근 학회 발표에 나타난 행동 비디오 요약, 골격 기반 행동 이해와 같은 주제는 연구실의 시각정보처리 역량이 정적 이미지에서 동적 영상 이해로 자연스럽게 확장되고 있음을 시사한다. 따라서 본 연구 주제는 전통적 패턴인식의 깊은 기반 위에 현대적 비전 응용을 접목하는 연구실의 정체성을 가장 잘 보여주는 핵심 영역이라 할 수 있다.
문자인식과 문서영상 이해
이 연구 주제는 광학문자인식(OCR), 온라인 필기 인식, 연속 필기체 해독, 문서 영상 구조 분석 등 문자와 문서의 자동 이해를 목표로 한다. 연구실의 주요 국제 논문과 저서에는 온라인 연속 필기 인식, 한글 필기 문자 인식, 동양권 문서 분석 및 인식 기술, OCR와 문서영상 분석 핸드북 등이 포함되어 있어 이 분야가 오랜 기간 축적된 전문 연구축임을 알 수 있다. 특히 한글과 동양권 문자처럼 구조가 복합적이고 분절 경계가 모호한 문자를 대상으로 한 연구는 학술적 난도가 높고 실용성도 크다. 기술적으로는 은닉 마르코프 모델(HMM), 통계적-구조적 결합 모델, 자소 및 연결부(ligature) 모델링, 동적 계획법 기반 탐색과 정렬 등의 방법이 핵심을 이룬다. 연구실의 대표 논문에서는 글자 자체뿐 아니라 글자 사이 연결 패턴까지 모델링하여 필기체 인식 정확도를 향상시키는 접근을 제시하였고, 인식과 분할을 동시에 해결하는 효율적 프레임워크를 설계하였다. 이는 단순 문자 분류보다 훨씬 어려운 문제인 연속 필기 해석에서 높은 성능을 가능하게 하는 중요한 방법론적 기여다. 이러한 연구는 전자문서 자동화, 고문서 디지털 보존, 모바일 필기 입력, 금융 및 행정 문서 처리, 교육용 필기 분석 등 다양한 응용으로 이어질 수 있다. 특히 한국어와 동양권 언어에 대한 문자인식 연구는 영어 중심 기술이 충분히 해결하지 못한 언어적·형태적 특수성을 반영해야 하므로 독자적 연구 가치가 크다. 연구실의 문서영상 및 문자 인식 연구는 기초 이론, 알고리즘 설계, 실제 언어 자원 적용을 폭넓게 아우르며 국내외적으로 의미 있는 전문성을 형성하고 있다.
인공지능 기반 시계열·행동 인식
이 연구 주제는 시간에 따라 변화하는 데이터에서 패턴을 학습하고 해석하는 인공지능 기술에 초점을 둔다. 연구실의 기존 논문에서는 동적 베이지안 네트워크를 이용한 손동작 인식이 대표적이며, 최근 학술발표에서는 GCN-LSTM과 HMM을 활용한 골격 기반 사람 행동 비디오 요약이 확인된다. 이는 연구실이 정적 영상 인식을 넘어 동작, 제스처, 행동과 같은 시계열 기반 인간 행위 이해로 연구 범위를 확장해 왔음을 보여준다. 핵심 방법은 베이지안 네트워크, HMM, 시계열 확률모형, 그래프 기반 신경망, 순환 구조 모델 등이다. 손동작이나 인간 행동은 관측값의 잡음이 크고 시간적 의존성이 강하기 때문에 프레임 단위 특징만으로는 안정적 인식이 어렵다. 이에 따라 연구실은 상태 전이와 시간 흐름을 반영하는 확률적 모델링 전통을 바탕으로, 최근 딥러닝 기반 구조를 접목하는 방향의 연구를 수행한 것으로 보인다. 이러한 접근은 동작의 시작과 종료, 중간 상태, 반복 패턴 등을 자연스럽게 설명할 수 있다는 장점이 있다. 응용 가능성은 매우 넓다. 제스처 기반 인터페이스, 스마트 감시, 헬스케어 모니터링, 영상 요약, 사용자 행동 분석, 지능형 멀티미디어 시스템 등에서 핵심 기술로 활용될 수 있다. 또한 시각정보처리와 인공지능을 결합한 이 주제는 연구실의 전통적인 패턴인식 역량과 최신 학습 기법을 이어주는 가교 역할을 한다. 결과적으로 본 연구는 사람 중심의 지능형 인식 시스템을 구현하기 위한 중요한 축으로 평가할 수 있다.