약·희소 지도 학습 기반 정보추출 및 추천 연구

Information Extraction and Recommendation with Weak/Sparse Supervision

연구 내용

약한 레이블과 희소 라벨을 활용해 NER·관계추출·추천을 고도화하는 연구

텍스트에서 개체와 관계를 추출하고 추천 성능을 향상시키기 위해, weak supervision과 sparse labeled data를 효율적으로 활용하는 학습 전략을 개발합니다. Named Entity Recognition에서는 teacher-student 프레임워크로 불완전·부정확한 약 레이블을 pseudo label로 변환하고, 보조 분류기를 통해 신뢰도에 따른 학습 비중을 구분합니다. 문서 수준 relation extraction에서는 문서의 topic entity를 누락 가능성까지 고려해 멘션을 집계해 인코딩하고, topic entity와 각 엔터티 멘션 간 관계를 결합해 출력합니다. 추천에서는 리뷰 수준과 단어 수준 어텐션을 계층적으로 통합하고, 대조적 표현 학습으로 그룹·유저·아이템 간 상호작용이 부족한 조건을 보완합니다. 또한 강인 loss와 확률 기반 레이블링을 통해 희소 라벨 환경에서 모델 일반화를 개선하는 방향으로 확장합니다. 웹 테이블 질의응답에서는 사전학습 언어 모델을 활용해 구조화된 표에서 질의에 대응하는 응답을 생성·매핑합니다.

관련 프로젝트

2건

연구 흐름

초기 연구에서는 문서 수준 relation extraction에서 topic entity가 텍스트에 생략될 수 있다는 문제를 정의하고, 멘션 집계를 기반으로 topic-aware 구조를 제안했습니다. 이후 개체 인식에서는 약 레이블의 불완전성과 부정확성을 동시에 다루기 위해 teacher-student 구조와 보조 분류기 기반 학습 체계를 확립했습니다. 추천 분야에서는 리뷰의 계층적 중요도를 반영하는 attention 설계를 적용하고, 데이터 희소성에 따른 과적합을 확률적 가중 평균 등으로 완화하는 흐름을 만들었습니다. 이어 sparse labeled data 상황에서는 강인 손실과 확률 레이블을 활용하는 준지도 학습 전략을 확장했고, 그룹 추천에서는 대조적 표현 학습과 데이터 증강 관점을 결합해 상호작용 부족 문제를 보완했습니다. 최근에는 사전학습 언어 모델 기반 웹 테이블 질의응답 개발로 구조화 데이터 응용을 확장하고 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

약지도 NER 모델
문서 수준 관계 추출기
지식베이스 보강 파이프라인
리뷰 기반 추천 랭킹
희소 라벨 텍스트 분류
대조적 추천 표현 학습
그룹 추천 시스템
웹 테이블 질의응답
엔터티 연결 및 정제
정보추출 자동화 에이전트