이재윤 교수 연구실 | 서울대학교 데이터사이언스학과

이재윤 연구실

서울대학교 데이터사이언스학과 이재윤 교수

자연어 처리

Retrieval-Augmented Generation

Relevance Estimation

이재윤 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

홈

이재윤 연구실

서울대학교 데이터사이언스학과 이재윤 교수

이재윤 연구실은 데이터사이언스학과 기반으로 자연어 처리에서 기계학습과 지식처리 기법을 결합하는 연구를 수행합니다. 검색-증강 생성에서 relevance estimator와 reranking 구조를 활용해 답변 가능성과 관련성을 제어하는 접근을 전개합니다. 또한 energy-based 모델로 제약과 관련된 span을 locate한 뒤 블랙박스 LLM 출력의 의미를 유지하며 편집하는 controlled text generation을 연구합니다. 이와 함께 출력 제약을 포함한 학습 알고리즘을 통일 관점에서 분석하는 연구를 진행하며, 에너지 기반 목적함수 및 안전한 AI 관련 프로젝트를 수행합니다. 더불어 AI 신약개발, Physical AI, 멀티에이전트 AGI, 뇌-오믹스-언어 파운데이션 모델, 체화형 AI 에이전트 관련 과제에도 참여합니다.

자연어 처리Retrieval-Augmented GenerationRelevance EstimationReranking 모델에너지 기반 모델

대표 연구 분야

연구 영역 전체보기

해석가능성 중심 relevance estimation 기반 검색-생성 질의응답

Interpretability-focused Relevance Estimation for Retrieval-Augmented Question Answering

연구 분야 상세보기

해석가능성 중심 relevance estimation 기반 검색-생성 질의응답

Interpretability-focused Relevance Estimation for Retrieval-Augmented Question Answering

연구 분야 상세보기

에너지 기반 제약 반영 및 인간 지식 주입형 자연어 생성

Energy-based Constraint Integration and Human Knowledge Injection for Text Generation

연구 분야 상세보기

사례 기반 추론으로 수치 및 프로그램 중심 금융 질의응답 구현

Case-Based Reasoning for Program-centric Numerical Financial Question Answering

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

13총합

5개년 연도별 피인용 수

40총합

주요 논문

논문 전체보기

article

인용수 8

2024

RE-RAG: Improving Open-Domain QA Performance and Interpretability with Relevance Estimator in Retrieval-Augmented Generation

Kiseung Kim, Jay-Yoon Lee

검색 증강 생성(Retrieval Augmented Generation, RAG) 프레임워크는 매개변수 지식과 외부 지식을 결합하여 오픈 도메인 질의응답(opendomain question answering) 과제에서 최첨단 성능을 보이는 방식을 활용한다. 그러나 RAG 프레임워크는 질의에 무관련 컨텍스트가 함께 제공될 때 성능 저하가 발생한다. 본 연구에서는 기존 리랭커(reranker)들이 제공하던 컨텍스트 간 상대적 관련성뿐 아니라, 주어진 컨텍스트가 해당 질문에 답하는 데 유용한지 분류하는 데 활용할 수 있는 신뢰도(confidence)를 제공하는 관련성 추정기(relevance estimator, RE)를 도입한 RE-RAG 프레임워크를 제안한다. 우리는 정답 컨텍스트에 대한 레이블 없이도 질의-답변(question-answer) 데이터만을 단순히 활용하여 RE를 훈련하기 위한 약지도(weakly supervised) 방법을 제안한다. 소형 생성기(small language model; sLM)로 학습된 RE는 RE와 함께 미세조정된 sLM의 성능을 향상시킬 뿐만 아니라, 이전에 참조되지 않았던 대규모 언어 모델(LLMs)의 성능도 향상시킬 수 있음을 보인다. 또한 우리는 RE가 측정한 신뢰도를 활용하는 새로운 디코딩 전략을 조사한다. 예를 들어, 검색된 컨텍스트를 바탕으로 해당 질문에 답하는 것이 "불가능(unanswerable)"하다고 사용자에게 알리도록 선택하거나, 무관련 컨텍스트에 의존하기보다는 LLM의 매개변수 지식에 의존하도록 선택하는 방법 등이 있다.

https://doi.org/10.18653/v1/2024.emnlp-main.1236

Interpretability

Computer science

Relevance (law)

Domain (mathematical analysis)

Estimator

Information retrieval

Relevance feedback

Artificial intelligence

Natural language processing

Mathematics

article

인용수 3

2024

Comparing Neighbors Together Makes it Easy: Jointly Comparing Multiple Candidates for Efficient and Effective Retrieval

Jonghyun Song, Cheyon Jin, Wenlong Zhao, Andrew McCallum, Jay-Yoon Lee

일반적인 검색-재랭킹 패러다임은 빠른 바이인코더(BE)로 방대한 집합에서 관련 후보를 검색한 뒤, 비용이 크지만 정확한 크로스인코더(CE)를 제한된 후보 집합에 적용하는 방식으로 이루어진다. 그러나 이와 같은 작은 부분 집합에 의존할 경우 바이인코더로부터의 오류 전파에 취약해지며, 이는 전체 성능을 제한한다. 이러한 문제를 해결하기 위해 우리는 Comparing Multiple Candidates(CMC) 프레임워크를 제안한다. CMC는 쿼리와 유사한 후보의 다중 임베딩(즉, 이웃)을 얕은 self-attention 계층을 통해 비교하여, 서로 간에 맥락화된 풍부한 표현을 제공한다. 또한 CMC는 다수의 비교를 동시에 처리할 수 있을 만큼 확장 가능하다. 예를 들어 CMC로 10K 후보를 비교하는 데 걸리는 시간은 CE로 16개 후보를 비교하는 것과 유사하다. ZeSHEL 데이터셋에서의 실험 결과, BE와 CE 사이에 CMC를 매끄러운 중간 재랭커(BE-CMC-CE)로 삽입하면, 단지 바이인코더만 사용하는 경우(BE-CE)에 비해 recall@k가 효과적으로 향상됨을 보이며(R@16에서 +6.7%-p, R@64에서 +3.5%-p), 지연은 미미한 수준(<7%)이다. 또한 상위 1단 정확도를 개선하는 최종 단계 재랭커로서의 CMC의 효과를 검증하기 위해, 엔티티, 패시지, 대화 랭킹과 같은 다운스트림 태스크에서 실험을 수행한다. 그 결과, CMC는 단지 더 빠를 뿐만 아니라(11배) 종종 크로스인코더보다 더 효과적이며, 예측 정확도 향상으로 이어짐을 확인했다. 구체적으로 위키피디아 엔티티 링크에서는 +0.7%-p, DSTC7 대화 랭킹에서는 +3.3%-p의 개선이 나타났다.

https://doi.org/10.18653/v1/2024.emnlp-main.1242

Computer science

Information retrieval

preprint

인용수 0

2024

Locate&Edit: Energy-based Text Editing for Efficient, Flexible, and Faithful Controlled Text Generation

Hye Ryung Son, Jay-Yoon Lee

arXiv (Cornell University)

최근의 제어된 텍스트 생성(CTG) 접근법은 대개 디코딩 시점에서 기본 언어 모델(LM)의 가중치 또는 로짓(logits)을 조작하는 방법을 포함한다. 그러나 이러한 방법들은 최신의 블랙박스 LMs에는 적용할 수 없으며, 기본 LM이 원래 생성한 결과의 핵심 의미를 보존하는 데에도 비효율적이다. 본 연구에서는 블랙박스가 아닌 텍스트 생성 접근인 CTG를 위한 효율적이고 유연한 에너지 기반 접근법인 Locate&Edit(L&E)를 제안한다. 이는 시판(off-the-shelf) 에너지 모델을 사용하여 기본 LM의 텍스트 출력을 편집한다. 기본 LM으로부터 텍스트 출력이 주어지면, L&E는 먼저 에너지 모델을 활용해 제약(예: 독성)과 가장 관련 있는 구간(span)을 위치(Locate)시키고, 이어서 이러한 구간을 더 적절한 대안으로 대체하여 편집(Edit)한다. 중요하게도, 본 방법은 텍스트 출력만 필요하므로 블랙박스 LMs와 호환 가능하다. 또한 L&E는 구성 요소 모델에 대해 특정 아키텍처를 요구하지 않으므로, 다양한 조합의 이용 가능한 시판 에너지 모델과 함께 동작할 수 있다. 더 나아가 L&E는 제약과 관련된 양상만을 선택적으로 수정하고 나머지는 변경하지 않음으로써, 기본 LM의 원래 생성 결과를 보존한다. 이러한 표적 편집은 또한 L&E가 효율적으로 동작하도록 보장한다. 우리의 실험 결과는 L&E가 기본 LM 생성 결과의 의미 보존과 속도에서 우수함을 달성하는 한편, 제약 충족에서도 경쟁력 있거나 향상된 성능을 동시에 얻음을 확인하였다. 뿐만 아니라, 에너지 분포의 과립성(granularity)이 CTG 성능에 미치는 영향을 분석한 결과, 기존의 이진 분류기 기반 에너지 모델에 비해 미세한(granular) 회귀(regression) 기반 에너지 모델이 제약 충족을 향상시키는 것으로 나타났다.

http://arxiv.org/abs/2407.00740

Text generation

Computer science

Natural language processing

Information retrieval

최신 정부 과제

과제 전체보기

2025년 8월-2027년 12월

|1,213,500,000원

AI 신약개발을 위한 글로벌 AI 인재 유치

갤럭스㈜는 자체 개발한 글로벌 수준의 단백질 신약 "설계" AI를 넘어 신약 "개발" 단계로 확장하기 위해 세계적 AI 인재를 유치하고자 한다. 갤럭스는 2024년 노벨화학상이 조명한 단백질 AI 성과를 기반으로 2025년 드노보 항체 설계에서 세계적 성과를 달성하였다. 이번에 영입하는 인재는 엘라드 하잔(프린스턴대, Google DeepMind 공동창업자...

해외 AI인재

AI 신약개발

단백질 설계

가상세포

융합 인재 양성

2025년 8월-2027년 12월

|2,372,800,000원

AI 신약개발을 위한 글로벌 AI 인재 유치

해외 AI인재

AI 신약개발

단백질 설계

가상세포

융합 인재 양성

2025년 6월-2028년 12월

|1,375,156,000원

Physical AI 분야의 거대 생성모델 기술 선도를 위한 LG AI STAR 인재양성 사업

본 과제는 2025-2028 4년간 산업현장 문제에 실전 적용 가능한 석박사급 AI STAR 선도인재를 육성하여 국내 AI기술의 자립 및 초격차 기반 확보의 초석마련을 목표로 함

물리 세계 기반 인공지능

물리 기반 데이터 생성

생체분자 구조다중 상태 파악

감각-행동 통합 상호작용

초거대 생성AI기반모델

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)