Multimodal and Graph Representation Learning with Transformer-based Semantic Embeddings
연구 내용
영상-오디오-대화 등 이종 신호를 융합해 하이라이트를 검출하고, Transformer 기반 의미 중요도 임베딩과 서브그래프 기반 그래프 표현학습으로 대규모 데이터의 학습 효율을 높이는 연구
다양한 입력 양식의 정보를 결합하기 위해, 비디오-오디오-대화 특징을 통합하는 멀티모달 학습 구조를 구성하고 하이라이트와 같은 목표를 예측합니다. 자연어 이해에서는 단어 중요도 임베딩을 통해 문맥 내 핵심 의미가 모델 표현에 반영되도록 학습을 조정합니다. 또한 그래프 표현학습에서는 원 그래프를 서브그래프로 분할해 서브그래프를 노드처럼 추상화함으로써 지역 학습과 전역 학습을 분리하고 병렬 처리를 가능하게 합니다. 이와 함께 분산 환경에서의 데이터 파이프라인을 통해 대규모 학습 흐름을 안정화하는 차별성을 갖습니다.
관련 연구 성과
관련 논문
0편
관련 특허
0건
관련 프로젝트
5건
연구 흐름
초기에는 멀티모달 특징 융합을 통해 비디오 하이라이트 탐지 문제를 다루고, 이후 영상-오디오 입력에서 감성/특징 기반 신호를 추출하는 방향으로 확장했습니다. 자연어 이해에서는 Transformer 기반 모델의 성능을 의미 중요도 임베딩으로 보정하여 표현 학습을 강화했습니다. 동시에 2024년부터는 그래프 표현학습에서 학습 시간과 스케일성 병목을 줄이기 위해 서브그래프를 단위로 추상화하는 2단계 GRL 구조를 제안했습니다. 이후 분산 학습을 위한 데이터 ingestion 및 점진적 학습 파이프라인 연구와 연계하여 대규모 데이터 처리 기반의 모델 학습을 강화했습니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.
관련 프로젝트
구분
제목
분산 환경에서의 점진적인 학습을 위한 데이터 파이프라인
분산 환경에서의 점진적인 학습을 위한 데이터 파이프라인
데이터사이언스와 비즈니스 포텐셜
데이터사이언스와 비즈니스 포텐셜
데이터분석기반의전자제조전문인력양성