박재휘 교수 연구실 | 서울시립대학교 통계학과

DILAB

서울시립대학교 통계학과 박재휘 교수

Knowledge-grounded conversation

Retrieval-Augmented Generation

Information retrieval

|박재휘 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

홈

DILAB

서울시립대학교 통계학과 박재휘 교수

DILAB(데이터 지능 연구실)은 데이터 기반의 지능형 응용 기술 개발을 목표로 다양한 인공지능 및 데이터 과학 연구를 수행하고 있습니다. 연구실은 데이터베이스, 빅데이터, 기계학습 등 첨단 기술을 활용하여 대규모 데이터의 분석, 자연어 처리, 비전-언어 융합 등 다양한 분야에 걸친 응용 연구를 진행하고 있습니다. 특히, 최근에는 대규모 언어 모델(LLM)과 외부 지식 증강(RAG) 기반의 대화 시스템, 챗봇, 멀티홉 질의응답 등 차세대 인공지능 기술 개발에 주력하고 있습니다. 이러한 연구는 LLM의 성능 향상과 연산 비용 절감, 그리고 실제 사용자와의 상호작용을 고려한 실용적 시스템 구현에 초점을 맞추고 있습니다. 비전-언어 멀티모달 인공지능 분야에서도 활발한 연구가 이루어지고 있습니다. 이미지와 텍스트를 결합한 멀티모달 모델 개발, 이미지 설명 생성, 이미지 기반 질의응답, 텍스트-이미지 검색 등 다양한 응용 기술을 연구하며, 벡터 데이터베이스와 장기 시각 기억 네트워크 등 최신 기술을 도입하고 있습니다. 또한, 도메인 특화 텍스트 분석을 통해 한글 소설, 지적재산권 문서 등 특정 분야의 방대한 데이터에서 의미와 가치를 추출하고, 중복 검출, 데이터 인사이트 도출 등 실제 산업 현장에서 요구되는 문제 해결에 기여하고 있습니다. 이러한 연구는 데이터 기반의 의사결정 지원, 지식 네트워크 구축 등 다양한 사회적 요구에 부응하고 있습니다. DILAB은 이론적 연구와 실용적 응용을 아우르는 융합적 접근을 통해, 데이터와 인공지능 기술의 새로운 가능성을 모색하고 있습니다. 앞으로도 데이터 지능 연구실은 인공지능, 데이터사이언스, 멀티모달 융합 등 다양한 분야에서 혁신적인 연구를 지속하며, 학계와 산업계에 기여할 것입니다.

Knowledge-grounded conversationRetrieval-Augmented GenerationInformation retrievalText matchingRecommender systems

대표 연구 분야

연구 영역 전체보기

지식 기반 대화에서 검색 및 텍스트 매칭을 결합한 응답 생성 연구

Retrieval-Augmented Knowledge-Grounded Conversation with Text Matching

연구 분야 상세보기

지식 기반 대화에서 검색 및 텍스트 매칭을 결합한 응답 생성 연구

Retrieval-Augmented Knowledge-Grounded Conversation with Text Matching

연구 분야 상세보기

속성·컨텍스트 정보를 반영한 추천을 위한 프록시 기반 아이템 표현 학습 연구

Proxy-based Item Representation for Attribute and Context-aware Recommendation

연구 분야 상세보기

장기 시각 메모리 네트워크 기반 예지형 시각지능 연구

Predictive Visual Intelligence with Long-term Visual Memory Networks

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

주요 논문

논문 전체보기

Preprint

인용수 9

2024

Proxy-based Item Representation for Attribute and Context-aware Recommendation

Jinseok Seol, Minseok Gang, Sang‐goo Lee, Jaehui Park

추천 시스템에서의 신경망 기반 접근은 대규모 항목 집합을 학습 가능한 벡터 임베딩 테이블로 표현함으로써 놀라운 성과를 보였다. 그러나 드문 항목은 충분한 학습 기회를 갖지 못해 의미 있는 표현을 학습하기 어려울 수 있다. 본 연구에서는 속성 및 맥락을 고려하는 설정에서 드문 항목의 충분히 학습되지 않은 임베딩이 추천 정확도를 저하시킨다는 점을 확인한다. 이러한 문제를 해결하기 위해, 각 항목을 학습 가능한 프록시 임베딩들의 가중 합으로 표현할 수 있게 하는 프록시 기반 항목 표현을 제안한다. 여기서 프록시의 가중치는 각 항목의 속성과 맥락에 의해 결정되며, 빈번한 항목의 경우 협업 신호를 보다 잘 반영하기 위해 편향 항(bias term)을 포함할 수 있다. 프록시 기반 방법은 항목 표현을 조합적으로(compositionally) 계산하여 각 표현이 잘 학습된 심플렉스(simplex) 내부에 위치하도록 보장하며, 따라서 품질이 담보된다. 또한 모든 항목에 걸쳐 프록시 임베딩을 공유함으로써, 드문 항목은 통일된 모델 구조 내에서 빈번한 항목의 학습 신호를 엔드투엔드 방식으로 차용할 수 있다. 제안하는 방법은 플러그앤플레이 방식의 모델로서, 어떤 신경망 기반 추천 모델이든 항목 인코딩 레이어를 대체할 수 있으며, 훨씬 더 적은 파라미터 사용으로도 일관되게 추천 성능을 향상시킨다. 실제 추천 벤치마크 데이터셋에서 수행한 실험 결과, 본 모델은 10%의 파라미터만 사용하면서도 추천 정확도 면에서 기존 최첨단 모델을 최대 17%까지 능가함을 보여주었다.

https://doi.org/10.1145/3616855.3635824

Computer science

Proxy (statistics)

Recommender system

Embedding

Collaborative filtering

Artificial neural network

Benchmark (surveying)

Artificial intelligence

Machine learning

Set (abstract data type)

Article

인용수 33

2022

Retrieval-Augmented Response Generation for Knowledge-Grounded Conversation in the Wild

Yeonchan Ahn, Sang‐goo Lee, Junho Shim, Jaehui Park

IF 3.9 (2022)

IEEE Access

인터넷 사용자들은 흥미로운 사실이나 주제에 관한 대화를 나누면서 웹으로부터 다양한 지식을 함께 접하는 경우가 흔하다. 그러나 기존의 대부분 지식 기반 대화 모델은 대화의 주제와 관련하여 오직 단일 문서만을 고려한다. 최근 제안된 검색 증강(retrieval-augmented) 모델들은 다수의 문서에 기반하여 응답을 생성하지만, 주어진 주제를 무시하고 대화의 국소적 문맥(local context)만을 사용한다. 이를 위해 본 연구는 주제와 대화의 국소적 문맥 모두와 관련 있는 적절한 범위의 문서를 검색하여 이를 지식 기반 응답 생성에 활용하는 새로운 검색 증강 응답 생성 모델을 제안한다. 우리의 모델은 먼저 전체 대화에서 추출한 주제 단어(topic words)와 응답 이전의 토큰(tokens)을 모두 입력으로 받아 여러 표상(representations)을 산출한다. 그 다음 대화와 문서 인코더에서 각각 처음 N 토큰의 표상과 대화의 키워드 및 문서에서의 키워드 표상을 선택하고, 대화의 표상 그룹을 문서의 표상 그룹과 각각 비교한다. 학습을 위해서는 정답 지식(ground truth knowledge) 없이도 모델이 지식 기반 응답을 생성하도록 유도하는 새로운 데이터 가중치(data-weighting) 방식을 도입한다. 대규모 데이터셋을 사용한 자동 및 사람 평가 결과는, 제안한 모델이 기존 최신(state-of-the-art) 모델에 비해 보다 더 지식이 풍부하고 다양하며 관련성 높은 응답을 생성할 수 있음을 보여준다.

https://doi.org/10.1109/access.2022.3228964

Conversation

Computer science

Context (archaeology)

Security token

Information retrieval

Representation (politics)

Natural language processing

Artificial intelligence

The Internet

World Wide Web

Article

인용수 6

2020

Exploiting Text Matching Techniques for Knowledge-Grounded Conversation

Yeonchan Ahn, Sang‐goo Lee, Jaehui Park

IF 3.367 (2020)

IEEE Access

지식 기반 대화 모델은 외부 지식에 근거하여 주어진 대화 맥락에 대해 유익한 응답을 생성하는 것을 목표로 한다. 유익하고 맥락에 부합하는 응답을 생성하기 위해서는 대화 맥락과 외부 지식을 균형 있게 결합(conjugate)하는 것이 중요하다. 그러나 기존 연구들은 외부 지식원에서 적절한 지식 문장을 찾는 문제를, 정확한 대화 행위(dialogue acts)를 갖는 적절한 문장을 생성하는 문제보다 상대적으로 덜 주목해 왔다. 본 논문에서는 두 가지 지식 선택 전략을 제안한다: 1) Reduce-Match 및 2) Match-Reduce. 그리고 각 전략에 기반한 여러 신경 지식 기반 대화 모델을 탐색한다. Reduce-Match 전략에 기반한 모델은 먼저 전체 대화 맥락을 중요 특징이 보존된 단일 벡터로 압축(distill)한 다음, 이 맥락 벡터를 지식 문장들의 표현과 비교하여 관련된 지식 문장을 예측한다. Match-Reduce 전략에 기반한 모델은 먼저 맥락의 각 발화를 지식 문장과 매칭(match)하여 세밀한 상호작용을 포착하고, 정보 손실을 최소화하면서 이를 집계하여 지식 문장을 예측한다. 실험 결과는 각 지식 선택 전략을 사용하는 대화 모델이 지식 선택 정확도뿐 아니라 응답 생성 성능에서도 경쟁 기준선(competitive baselines)보다 우수함을 보여준다. 또한 Match-Reduce를 기반으로 한 최우수 모델은 Wizard of Wikipedia 데이터셋을 대상으로 한 비교 실험에서 기준선들을 능가한다. 아울러 Reduce-Match를 기반으로 한 최우수 모델은 CMU Document Grounded Conversations 데이터셋에서 기준선들을 능가한다.

https://doi.org/10.1109/access.2020.3007893

Conversation

Computer science

Matching (statistics)

Natural language processing

Psychology

Communication

최신 정부 과제

과제 전체보기

2024년 7월-2025년 7월

|80,000,000원

한국어 소설 분석 언어 모델(LLM) 개발

1. 한국어 소설 분석 언어 모델(LLM) 개발 (1)웹소설 2차 콘텐츠 복잡한 제작과정을 해결할 수 있는 인공지능 소설 분석 모델 개발 (2) 인공지능 소설 분석 모델을 통한 콘텐츠 시나리오 제작 (3) 시나리오 제작 툴 B2B, B2C 판매2. 웹 소설이 오디오북, 웹툰, 드라마 같은 다양한 콘텐츠로 발행되는 미디어 믹스 (Media Mix) 사례가 많...

소설

언어모델

시나리오

텍스트

분석

주관|

2019년 12월-2027년 12월

|2,600,000,000원

장기 시각 메모리 네트워크 기반의 예지형 시각지능 핵심기술 개발

■ (시공간 인식) 영상 내 유의미한 시공간 정보 탐색 기반 기억 압축 기술 - 영상 내 유의미한 행동 정보의 시간적 탐색 기술 개발 - 시간적 일관성을 갖는 유의미한 시공간 정보 탐색 기술 개발 - 시공간적 객체 구조 모델링 기술 개발 ■ (관계 이해) 시공간 정보 결합을 통한 관계 이해 및 저장 관리 기술 - 시각 정보를 이용한 객체 간 관계 이해 기술 개발 - 시공간 정보 결합 기반 단일 객체 움직임 의도 추론 기술 개발 - 공간 정보 결합 기반 객체와 배경 간 관계 이해 기술 개발 - 객체 간 관계 정보 기반의 장기 메모리 저장 및 선별 기술 개발 ■ (기억 융합) 맥락 복합 분석을 통한 장면 이해를 위한 기억 융합 기술 - 장면 이해를 위한 단기 기억과 지식 융합 기술 개발 - 단일 태스크 수행을 위한 시각-언어 기억 융합 기술 개발 - 장면 이해를 위한 의미 기반 맥락 정보 계량화 기술 개발 - 장면 이해를 위한 시각 기억의 시간적 융합 기술 개발 ■ (상황 추론) 장기 시각 기억의 통합적 분석 기반 상황 추론 기술 - 장기 기억 분석을 위한 시공간 정보 선별 기술 개발 - 장기 기억 분석을 위한 시공간 중요 구간 선별 기술 개발 - 시각 기억 분석 기반의 단기 미래 예측 기술 개발

기억 추론

시각적 기억

시각적 예지

시각적 인지

장기 기억

2019년 12월-2027년 12월

|2,600,000,000원

장기 시각 메모리 네트워크 기반의 예지형 시각지능 핵심기술 개발

o 최종목표 ; 영상정보를 체계적으로 기억하고 미래를 예측하는 시각 메모리 네트워크 기반의 예지형 시각지능 원천 기술 개발 - 1단계 목표: 시각정보의 추상화 및 저장·복원 기술 개발: 영상을 체계적으로 기억하기 위해 시각정보를 추상화하여 저장하고 복원하여 기억을 모사할 수 있는 단기 시각 메모리 네트워크 개발 - 2단계 목표: 시각 메모...

시각적 기억

장기 기억

시각적 예지

시각적 인지

기억 추론

연구실 하이라이트

연구실의 정보를 AI가 요약해서 키워드 중심으로 정리해두었어요

기술파급력

차세대 지식기반 대화형 AI 기술

AI 요약 확인하기

SCIE논문

초고효율 개인화 추천 시스템

AI 요약 확인하기

융합기술

비전-언어 멀티모달 AI 솔루션

AI 요약 확인하기

기업협력

도메인 특화 텍스트 분석 및 지식 자산화

AI 요약 확인하기

독창적기술

실사 수준의 복잡한 장면 생성 AI

AI 요약 확인하기

연구자역량

데이터 근본을 이해하는 연구 역량

AI 요약 확인하기

맞춤형 인사이트 리포트

연구실의 전체 데이터를 활용한 맞춤형 인사이트 리포트

연구 트렌드부터 공동 연구 방향성 기획까지

연구실과 같이 할 수 있는게 무엇인지,
지금 바로 확인해보세요

무료 리포트 확인하기