Language and Data Intelligence Lab.
컴퓨터공학부 성무진
Language and Data Intelligence Lab.은 딥러닝과 자연어 처리(NLP) 기술을 바탕으로, 인간의 언어를 이해하고 다양한 지식을 효과적으로 활용하는 인공지능 연구를 선도하고 있습니다. 본 연구실은 경희대학교 국제캠퍼스에서 운영되며, 최신 딥러닝 모델과 자연어 처리 기법을 실제 문제에 적용하는 데 중점을 두고 있습니다.
특히, 의료 및 바이오메디컬 분야에서의 지식 추출, 정보 검색, 질의응답 시스템 개발에 많은 연구 역량을 집중하고 있습니다. 예를 들어, 의료 질문에 대한 근거 기반의 답변 생성, 대규모 바이오메디컬 데이터에서의 개체명 인식 및 정규화, 도메인 특화 데이터셋 구축 등 다양한 프로젝트를 수행하고 있습니다. 이러한 연구는 실제 의료 현장, 과학 연구, 산업 현장에서의 의사결정 지원과 지식 전달에 큰 기여를 하고 있습니다.
본 연구실은 Retrieval-Augmented Generation(RAG), Self-Reflection, Dense Retrieval 등 최신 인공지능 기술을 적극적으로 도입하여, 기존의 한계를 극복하고 새로운 패러다임을 제시하고 있습니다. 또한, 대규모 언어 모델의 도메인 적응, 신경망 기반 정보 검색, 맞춤형 질의응답 시스템 등 다양한 혁신적 연구를 통해 국내외 학술대회 및 저명 학술지에 다수의 논문을 발표하고 있습니다.
연구실 구성원들은 실제 산업 및 학문 현장에서 발생하는 문제를 해결하기 위해, 이론과 실무를 아우르는 융합적 연구를 지향합니다. 이를 통해, 인공지능 기술의 사회적 가치와 활용도를 극대화하고, 미래 지식 사회를 선도하는 연구실로 성장하고자 합니다.
앞으로도 Language and Data Intelligence Lab.은 자연어 처리와 딥러닝 분야의 최신 동향을 반영한 연구를 지속적으로 수행하며, 다양한 도메인에서의 혁신적인 인공지능 솔루션 개발에 앞장설 것입니다.
딥러닝 기반 자연어 처리
딥러닝은 최근 자연어 처리(NLP) 분야에서 혁신적인 변화를 이끌고 있습니다. 본 연구실은 딥러닝 기술을 활용하여 언어의 의미를 보다 깊이 있게 이해하고, 다양한 언어적 과제를 효과적으로 해결하는 방법을 연구합니다. 특히, 대규모 언어 모델과 신경망 기반의 문장 및 문서 표현 학습에 중점을 두고 있습니다.
이러한 연구는 텍스트 분류, 감정 분석, 기계 번역, 의도 인식 등 다양한 응용 분야에 적용되고 있습니다. 예를 들어, 본 연구실에서는 Zero-shot 및 Few-shot 상황에서의 의도 분류, 대규모 프레이즈 임베딩, 신경망 기반 개체명 인식 등 최신 딥러닝 기법을 실제 문제에 적용하여 우수한 성과를 거두고 있습니다. 또한, 의료 및 과학 분야의 특수 언어 데이터에 맞춘 맞춤형 딥러닝 모델 개발에도 힘쓰고 있습니다.
이러한 연구를 통해 자연어 처리의 정확성과 효율성을 크게 향상시키고, 인간과 기계 간의 자연스러운 의사소통을 실현하는 데 기여하고 있습니다. 앞으로도 본 연구실은 딥러닝 기반 자연어 처리 기술의 한계를 극복하고, 새로운 패러다임을 제시하기 위해 지속적으로 연구를 이어갈 예정입니다.
지식 추출 및 정보 검색
지식 추출과 정보 검색은 방대한 데이터 속에서 의미 있는 정보를 찾아내고, 이를 구조화하여 활용하는 데 핵심적인 역할을 합니다. 본 연구실은 자연어 텍스트로부터 개체, 관계, 사실 등을 자동으로 추출하는 기술과, 사용자의 질의에 대해 관련성 높은 정보를 신속하게 찾아내는 정보 검색 시스템을 개발하고 있습니다.
특히, 의료 및 과학 분야의 복잡한 데이터에서 정확한 지식을 추출하기 위해, 신경망 기반의 엔티티 인식, 동의어 처리, 문서 내 의미적 연결성 분석 등 다양한 최신 기법을 적용하고 있습니다. 또한, Dense Retrieval, Retrieval-Augmented Generation(RAG) 등 최신 정보 검색 기술을 활용하여, 대규모 지식베이스와 연계된 고성능 질의응답 시스템을 구축하고 있습니다. 실제로, 본 연구실의 연구 결과는 바이오메디컬 QA, 화학 정보 추출, 요리 지식베이스 구축 등 다양한 분야에서 활용되고 있습니다.
이러한 연구는 단순한 정보 검색을 넘어, 사용자의 요구에 맞는 맞춤형 지식 제공, 복잡한 문제 해결, 그리고 새로운 지식의 발견까지 가능하게 합니다. 앞으로도 본 연구실은 지식 추출 및 정보 검색 기술의 정밀성과 확장성을 높여, 다양한 산업 및 학문 분야에 혁신적인 솔루션을 제공할 것입니다.
질의응답 및 도메인 특화 인공지능
질의응답(QA) 시스템은 사용자의 자연어 질문에 대해 신속하고 정확하게 답변을 제공하는 인공지능 기술입니다. 본 연구실은 특히 의료, 바이오메디컬, 과학 등 도메인 특화 분야에서의 질의응답 시스템 개발에 주력하고 있습니다. 이를 위해, Retrieval-Augmented Generation(RAG), Self-Reflection, 도메인 특화 데이터셋 구축 등 다양한 혁신적 방법론을 연구하고 있습니다.
최근에는 대형 언어 모델(LLM)과 정보 검색 기술을 결합하여, 단순한 정답 제공을 넘어 근거 기반의 설명, 자기 반성적 응답 생성 등 고차원적 질의응답 시스템을 구현하고 있습니다. 예를 들어, Self-BioRAG 프레임워크는 의료 질문에 대해 관련 문서를 검색하고, 생성된 답변의 신뢰성을 자체적으로 평가하는 기능을 갖추고 있습니다. 이러한 기술은 실제 의료 현장에서의 의사결정 지원, 과학적 탐구, 전문 지식 전달 등 다양한 분야에 적용되고 있습니다.
본 연구실은 앞으로도 도메인 특화 인공지능의 한계를 극복하고, 다양한 실제 문제에 적용 가능한 고성능 질의응답 시스템을 개발하는 데 앞장설 것입니다. 이를 통해, 사회 각 분야의 지식 접근성과 활용도를 높이고, 인공지능의 실질적 가치를 실현하는 데 기여하고자 합니다.
1
Rationale-Guided Retrieval Augmented Generation for Medical Question Answering
Jiwoong Sohn, Yein Park, Chanwoong Yoon, Sihyeon Park, Hyeon Hwang, Mujeen Sung, Hyunjae Kim, Jaewoo Kang
NAACL 2025, 2025
2
Structured List-Grounded Question Answering
Mujeen Sung, Song Feng, James Gung, Raphael Shu, Yi Zhang, Saab Mansour
COLING 2025, 2025
3
Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models
Minbyul Jeong, Jiwoong Sohn, Mujeen Sung, Jaewoo Kang
ISMB 2024, 2024