기본 정보
연구 분야
프로젝트
발행물
구성원
연구 영역
대표 연구 분야
연구실이 가장 잘하는 대표 연구 분야
1

데이터 효율적 기계학습과 파운데이션 모델 일반화

이 연구 주제는 적은 양의 데이터와 약한 지도 신호만으로도 대규모 학습에 준하는 일반화 성능을 달성하는 기계학습 이론과 알고리즘을 개발하는 데 초점을 둔다. 연구실은 데이터가 충분하지 않거나 라벨이 불완전한 실제 환경을 중요한 문제 설정으로 보고, 데이터 응축, 데이터 선별, 지식 증류, 부분 라벨 학습, 테스트 단계 적응과 같은 방법을 통해 학습 효율을 높이는 방향을 탐구한다. 특히 최근의 파운데이션 모델과 거대언어모델이 막대한 데이터와 계산 자원을 요구한다는 점에 주목하여, 이러한 비용을 줄이면서도 신뢰성과 성능을 유지할 수 있는 수학적 원리 정립을 중시한다. 구체적으로는 데이터의 가치와 전형성을 학습 없이 평가하는 방법, 표본 점수 기반 데이터 프루닝, 데이터셋 디스틸레이션, 최근접 이웃 정보를 활용한 의사 라벨링 기반 테스트 단계 적응, 자기증류 개선 기법 등이 주요 축을 이룬다. 이는 단순히 성능 향상에 머무르지 않고, 어떤 데이터가 모델 학습에 실질적으로 기여하는지, 모델이 새로운 환경에서 어떻게 빠르게 적응하는지, 제한된 감독 신호가 어떻게 강한 일반화로 연결되는지를 이론적으로 설명하려는 시도와 맞물려 있다. 연구실의 프로젝트와 ICML, ICLR, NeurIPS 발표 이력은 이러한 방향이 실험적 성과와 이론적 기여를 동시에 지향함을 보여준다. 이 연구의 기대 효과는 학습 비용 절감, 데이터 수집 부담 완화, 개인정보 및 라벨링 비용 문제 완화, 그리고 실제 배치 환경에서의 강건한 적응 능력 확보에 있다. 장기적으로는 신뢰 가능한 파운데이션 모델의 분석 프레임워크와 개인화 가능한 확장형 인공지능 시스템으로 발전할 수 있으며, 의료, 과학, 제조, 교육 등 데이터가 제한적이거나 도메인 이동이 빈번한 영역에서 높은 파급력을 갖는다. 결국 이 주제는 인공지능의 성능 경쟁을 넘어서, 더 적은 자원으로 더 믿을 수 있는 학습을 가능하게 하는 핵심 기반 연구라 할 수 있다.

데이터 효율학습파운데이션 모델데이터 증류테스트 적응일반화
2

정보이론 기반 통계적 추론과 고차원 데이터 분석

이 연구 주제는 정보이론, 통계적 추론, 랜덤 행렬 이론을 바탕으로 고차원 데이터에서 신호를 검출하고 구조를 복원하는 문제를 다룬다. 연구실은 복잡한 데이터가 잡음에 묻혀 있을 때 무엇이 근본적으로 가능한지, 어떤 알고리즘이 최적 또는 준최적 성능을 내는지, 그리고 성능의 한계가 어디에서 결정되는지를 수학적으로 밝히는 데 강점을 가진다. 이는 전통적인 정보통신이론의 문제의식을 현대 데이터과학과 기계학습 문제로 확장한 연구라고 볼 수 있다. 대표적으로 스파이크 랜덤 행렬 모형에서 저랭크 신호 검출, 비가우시안 잡음 환경에서의 전처리 기반 검출 성능 향상, 극단 고유값의 상전이 분석, 선형 스펙트럼 통계량의 중심극한정리, 신호 랭크 추정 알고리즘 등이 포함된다. 또한 크라우드소싱 데이터 취득 문제에서는 표본 복잡도와 질의 난이도 사이의 근본적 상충관계를 분석하고, 다중 선택형 응답에서 상위 답변과 혼동 확률을 복원하는 방법을 제안한다. 이런 연구는 단순한 알고리즘 설계에 그치지 않고, 왜 특정 방법이 성공하거나 실패하는지를 엄밀한 수학으로 설명한다는 점에서 의미가 크다. 이러한 이론 연구는 실제로 대규모 센서 데이터, 네트워크 데이터, 인간 참여형 라벨링 시스템, 생의학 데이터 분석 등 다양한 응용으로 이어질 수 있다. 특히 데이터 규모가 커질수록 직관에 의존한 경험적 방법만으로는 한계가 커지는데, 이 연구는 통계적 검출 가능성, 정보량, 추정 오차, 계산 복잡도 사이의 관계를 정량적으로 이해하게 해 준다. 따라서 연구실의 정보이론 기반 접근은 인공지능과 데이터과학의 실용성을 뒷받침하는 원천 이론으로서 중요한 가치를 지닌다.

정보이론통계적 추론랜덤행렬신호검출크라우드소싱
3

그래프 매칭, 커뮤니티 탐지와 상관 네트워크 학습

이 연구 주제는 여러 네트워크에 걸쳐 나타나는 구조적 상관성과 속성 정보를 활용하여 노드 대응 관계를 찾고, 더 나은 커뮤니티 복원을 수행하는 문제를 다룬다. 현실의 사회 연결망, 생물학적 네트워크, 다중 플랫폼 사용자 그래프는 서로 독립적이지 않으며, 같은 개체가 여러 그래프에 반복적으로 나타나거나 속성 정보와 구조 정보가 동시에 존재하는 경우가 많다. 연구실은 이러한 상황을 반영한 상관 확률 그래프 모형을 정립하고, 그래프 정합과 커뮤니티 검출을 통합적으로 분석한다. 구체적으로는 상관된 확률적 블록 모형과 문맥 정보를 포함한 확장 모형을 설정하고, 엣지 정보와 노드 속성을 함께 활용하는 정확한 매칭 알고리즘을 제안한다. k-core 기반 정합, 거리 기반 속성 활용, 상관 가우시안 혼합모형 분석, 정확 복원이 가능한 조건 도출 등은 이 분야의 핵심 성과이다. 이 접근은 하나의 그래프만으로는 불가능한 커뮤니티 탐지가, 상관된 다른 그래프의 보조 정보가 추가될 때 가능해지는 영역을 밝혀낸다는 점에서 학문적으로도 중요하다. 이 연구는 멀티모달 데이터 통합, 다중 플랫폼 사용자 분석, 보안 및 개인정보 보호 환경에서의 엔터티 정합, 네트워크 기반 추천과 이상 탐지 등 폭넓은 응용 가능성을 가진다. 나아가 그래프 구조와 부가 속성을 함께 다루는 현대 인공지능 문제에서, 어떤 정보 조합이 실제 성능 향상을 만드는지에 대한 이론적 기준을 제시한다. 따라서 이 주제는 네트워크 데이터 시대의 핵심 문제인 연결, 정렬, 복원의 원리를 이해하고 활용하는 데 중요한 역할을 한다.

그래프 매칭커뮤니티 탐지확률그래프모형노드속성네트워크 분석
4

양자정보이론과 양자기계학습의 기초 원천 기술

이 연구 주제는 양자정보이론의 수학적 토대와 양자컴퓨팅의 알고리즘적 가능성을 바탕으로, 차세대 계산 체계가 인공지능 및 정보처리에 어떤 이점을 제공할 수 있는지를 탐구한다. 연구실의 배경 키워드에 퀀텀정보이론이 포함되어 있고, 양자 데이터베이스와 양자 메모리 관련 특허, 양자컴퓨팅 기초 원천 기술 프로젝트 수행 이력은 이 분야가 연구실의 장기적 연구 축 가운데 하나임을 보여준다. 이는 고전적 정보이론을 넘어 양자 중첩, 얽힘, 측정의 제약을 고려한 새로운 정보처리 원리를 연구하는 방향이다. 세부적으로는 양자 채널 코딩, 유한 블록길이 조건에서의 양자 측정, 양자 메모리 및 데이터베이스 구조, 큐비트 얽힘 생성과 검증, 양자 오류정정, 그리고 양자기계학습 알고리즘의 가능성을 포함한다. 이러한 연구는 단순히 양자 하드웨어 자체를 만드는 데만 머무르지 않고, 양자 상태를 어떻게 효율적으로 표현하고 저장하며 검색할 것인지, 고전적 인공지능 문제를 양자적 계산으로 어떻게 재구성할 것인지에 대한 이론적 질문을 함께 다룬다. 따라서 알고리즘, 정보이론, 계산 복잡도, 물리적 구현 가능성이 서로 맞물려 있다. 장기적으로 이 연구는 초고속 탐색, 대규모 최적화, 새로운 형태의 학습 및 추론 메커니즘 개발에 기여할 가능성이 있다. 특히 양자기계학습은 아직 초기 단계이지만, 어떤 문제에서 실질적 이점을 얻을 수 있는지에 대한 냉정한 이론 분석이 매우 중요하다. 연구실의 접근은 이러한 가능성을 과장하기보다, 정보이론적 한계와 알고리즘적 실현 가능성을 함께 따져 보면서 양자기술의 실질적 응용 기반을 마련하는 데 의미가 있다.

양자정보이론양자컴퓨팅양자기계학습양자오류정정큐비트