신유현 교수 연구실 | 고려대학교 언어학과

신유현 연구실

고려대학교 언어학과 신유현 교수

한국어 자연어처리

전이학습

프리트레인 언어모델

|신유현 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

홈

신유현 연구실

고려대학교 언어학과 신유현 교수

신유현 연구실은 언어학과 기반에서 한국어 자연어처리 태스크의 성능을 높이기 위해 전이학습과 Transformer 계열 모델을 활용하는 연구를 수행합니다. 특히 Korean abstractive summarization에서 multi-encoder 구조로 서로 다른 pre-trained language model을 결합하여 입력 표현을 확장합니다. 또한 ColBERT late interaction 기반 document retrieval과 언어별 sentence embedding hybrid 선택을 통해 오픈도메인 question answering의 검색 품질과 계산 효율을 함께 다룹니다. LLM 기반 정보추출에서는 diversified prompting으로 slot filling의 recall–precision 균형을 조정합니다.

한국어 자연어처리전이학습프리트레인 언어모델Transformer 기반 모델다중 인코더 요약

대표 연구 분야

연구 영역 전체보기

다중 인코더 기반 한국어 생성요약 및 LLM 슬롯필링

Multi-Encoder Korean Abstractive Summarization and LLM Slot Filling

연구 분야 상세보기

다중 인코더 기반 한국어 생성요약 및 LLM 슬롯필링

Multi-Encoder Korean Abstractive Summarization and LLM Slot Filling

연구 분야 상세보기

적응형 bi-encoder 모델 선택과 앙상블 기반 텍스트 분류 및 키워드 생성

Adaptive Bi-Encoder Selection and Ensemble for Text Classification and Keyword Generation

연구 분야 상세보기

문장·문서 임베딩 기반 한국어 의미 검색과 효율적 질의응답

Korean Semantic Search with Sentence/Document Embeddings for Efficient QA

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

16총합

5개년 연도별 피인용 수

109총합

주요 논문

논문 전체보기

Article

인용수 0

2026

Diversified Prompting Strategy for Improving Slot Filling With Large Language Models

Mirr Shin, Youhyun Shin

IF 3.6 (2026)

IEEE Access

우리는 대규모 언어 모델(LLMs)을 이용한 슬롯 필링(slot filling)에서 발생하는 어려움을 해결하기 위해 분산된 프롬프트(diversified prompting) 전략을 제안한다. 이때 회상(recall)은 예측 누락(prediction omissions)으로 인해 저하되는 경우가 많고, 중복 또는 과도한 슬롯 할당으로 인해 정밀도(precision)도 감소한다. 우리의 전략은 회상을 향상시키기 위해 후보 슬롯을 더 작은 그룹으로 분할하는 하위 프롬프트(sub-prompt)와, 동일한 발화(utterance)에 대해 다양한 구조적 프롬프트 변형을 적용하는 멀티 뷰(multi-view) 프롬프트를 결합한다. 최종 슬롯 예측은 임계값 기반 다수결(threshold-based majority voting)로 선택되어 회상과 정밀도의 균형을 효과적으로 조정한다. SNIPS, MASSIVE, MultiWoz의 세 가지 벤치마크 데이터셋과 여섯 가지 LLM(bloomz, falcon, llama2, llama3, qwen2, gemma)에 대해 실험한 결과, 기준 모델(baseline) 및 모든 단일 프롬프트 방법과 비교하여 일관된 성능 향상이 나타났다. 예를 들어 SNIPS에서 llama3-8B는 회상을 78.4에서 90.5로, F1을 72.6에서 82.0으로 향상시켰다. 또한 다양한 모델 크기에 걸쳐 실험을 수행하여 본 방법론의 일반 적용 가능성을 확인하였다. 이러한 결과는 제안된 분산된 프롬프트 전략이 회상, 정밀도, F1 간의 균형을 효과적으로 회복하며, LLM 기반 슬롯 필링을 향상시키기 위한 확장 가능한 방법론을 제공함을 보여준다.

https://doi.org/10.1109/access.2025.3650469

Benchmark (surveying)

Baseline (sea)

Scalability

Recall

Language model

Precision and recall

Article

인용수 20

2023

Multi-Encoder Transformer for Korean Abstractive Text Summarization

Youhyun Shin

IF 3.4 (2023)

IEEE Access

본 논문에서는 다중 인코더 트랜스포머를 사용하는 한국어 추상적 텍스트 요약(abstractive text summarization) 접근법을 제안한다. 최근 자연어 처리(NLP) 분야의 많은 과제에서 전이 학습을 위한 사전학습 언어 모델(PLMs: pre-trained language models)의 활용이 괄목할 만한 성능을 보였다. 특히 BERT(Bidirectional Encoder Representations from Transformers)와 같은 트랜스포머 기반 모델은 사전학습에 사용되며 하위 과제에 적용되어, 추상적 텍스트 요약을 포함하여 최신(state-of-the-art) 성능을 나타낸다. 그러나 기존의 텍스트 요약 모델은 보통 각 모델 아키텍처마다 하나의 사전학습 모델만 사용하는데, 이로 인해 한 번에 하나의 PLM을 선택해야 한다. 한국어 추상적 텍스트 요약에 적용 가능한 PLM으로는 Multilingual BERT, KoBERT, HanBERT, KorBERT 등 서로 다른 장점을 제공하는 공개된 BERT 기반 사전학습 한국어 모델들이 존재한다. 본 연구에서는 이러한 PLM들을 동시에 활용할 수 있다면 더 나은 성능을 얻을 수 있을 것이라 가정한다. 이에 따라 여러 사전학습 모델을 활용할 수 있는 다중 인코더를 사용하여 추상적 요약을 생성하는 모델을 제안한다. 본 방법은 한국어 추상적 요약을 위한 3개의 벤치마크 데이터셋인 Law(AI-Hub), News(AI-Hub), News(NIKL) 데이터셋을 사용하여 평가한다. 실험 결과, 제안한 다중 인코더 모델 변형들이 단일 인코더 모델보다 우수함을 보여준다. 또한 다중 인코더 방법으로 여러 PLM을 활용할 때 최적의 입력 조합을 결정하여 경험적으로 가장 우수한 요약 모델을 도출한다.

https://doi.org/10.1109/access.2023.3277754

Automatic summarization

Computer science

Encoder

Transformer

Artificial intelligence

Natural language processing

Language model

Benchmark (surveying)

Machine learning

Article

인용수 8

2022

Text Processing Education Using a Block-Based Programming Language

Youngki Park, Youhyun Shin

IF 3.9 (2022)

IEEE Access

본 논문에서는 Scratch와 같은 블록 기반 프로그래밍 언어를 활용하여 초·중등학생에게 텍스트 처리(text processing)를 가르치기 위한 새로운 접근법을 제시한다. 우리의 핵심 아이디어는 학생들로 하여금 (1) 텍스트 처리를 위한 “기본 빌딩 블록(basic building blocks)”을 구축하게 한 다음, (2) 이를 활용하여 예시 텍스트 처리 응용을 만들게 하는 것이다. 이를 위해 우리는 학생들이 이러한 기본 빌딩 블록을 쉽게 만들 수 있도록 Scratch를 약간 수정하였다. 또한 본 예시 응용은 ACM CSTA K-12 컴퓨터 과학 표준의 Data & Analysis 하위 개념(저장(Storage), 컬렉션(Collection), 시각화(Visualization), 변환(Transformation), 추론 & 모델(Inference & Models))을 기반으로 구성되므로, 학생들은 이를 구현함으로써 해당 표준을 달성하는 동시에 텍스트 처리에 대한 이해를 얻을 수 있다. 우리는 본 접근법을 초·중등 교사를 대상으로 두 차례 강의하여 적용하였으며, 설문에 응답한 교사들은 대부분의 평가 항목에서 평균적으로 높은 점수를 부여하였다. 아울러 유사 집단에서의 다른 설문 결과와의 비교를 포함하여 설문 결과에 대한 심층 분석을 수행하였다.

https://doi.org/10.1109/access.2022.3227765

Scratch

Computer science

Block (permutation group theory)

Visualization

Transformation (genetics)

Inference

Mathematics education

Multimedia

Programming language

Artificial intelligence

최신 정부 과제

과제 전체보기

2024년 4월-2026년 4월

|119,725,000원

거대 언어 모델의 창발적 능력을 활용한 제로샷 및 퓨샷 기반의 정확한 키워드 생성 방법 연구

본 연구의 목표는 거대 언어 모델(LLM)의 'zero-shot' 및 'few-shot learning'에 강인한 창발적 능력(Emergent Abilities of LLMs)을 활용하여, 키워드 생성의 정확도를 향상시키는 연구를 진행하는 것입니다.

거대 언어 모델

키워드 생성

제로샷 프롬프팅

퓨샷 프롬프팅

인컨텍스트 러닝

주관|

2021년 6월-2021년 12월

|237,500,000원

자연어 이해에 기반한 자동 수학 문제 풀이 생성 연구

자연어 이해에 기반하여 수학 문제 풀이를 효과적으로 자동 생성하는 것을 목표로 함. 이를 위해 아래 그림과 같은 3단계 연구 방법을 제시함 첫 번째 단계는 초등 수학에 특화된 학습 데이터를 생성하는 단계로, 초등 교사, 예비 교사 등 교육 전문가를 활용하여 체계적이고 효과적인 학습 데이터를 생성함. 또, 자연어 이해 정도를 객관적으로 평가할 수 있는 테스트 데이터셋을 구축함. 첫 번째 단계에서 생성된 학습 데이터는 사람이 직접 만든 데이터이기 때문에, 학습을 하기에는 여전히 그 수가 부족할 수밖에 없음. 이 문제를 해결하기 위해 두 번째 단계에서는 자동으로 학습 데이터를 증대시킬 수 있는 기술을 개발함. 구체적으로, (1) 학습 데이터 증대를 위해 동일한 문제를 자연어 처리를 통해 다르게 표현하는 기술을 개발하고, (2) 한국어의 특성에 기반하여 학습 데이터를 효과적으로 증대시킬 수 있는 기술을 연구 개발함. 또, (3) 학습 데이터의 수가 적더라도 데이터 부족 문제를 완화할 수 있는 기술을 연구 개발함. 세 번째 단계에서는 자연어 이해 기술을 개발함. 제시될 수 있는 수학 문제의 유형을 정의하고, 자연어의 맥락을 이용하여 주어진 문제의 세부 유형을 정확히 파악하는 인공지능 모델 개발을 연구함. 또, 실용적인 모델 개발을 위해 제한된 GPU 자원을 활용하여 빠른 시간 내 수학 문제의 답을 계산해낼 수 있는 기술을 연구 개발함. 마지막으로, 학습된 인공지능 모델을 활용하여 수학 문제의 정확한 답을 도출해 내기 위한 휴리스틱 기술을 개발 및 연구함.

수학 문제

인공지능

자연어 이해

자연어 처리

초등 수학

주관|

2021년 2월-2024년 2월

|31,476,000원

전이학습을 활용한 범용 한국어 자연어 처리 딥러닝 모델 연구

본 연구는 한국어 '선수학습' 모델을 학습하고, 이후 개체명 인식, 기계 독해, 요약과 같은 '다운스트림 태스크'에 모델을 전이하는 방식으로 학습을 진행합니다. 연구내용은 크게 두 가지입니다. 1) 태스크마다 존재했던 독립적인 자연어 처리 모델들을 하나의 범용 모델로 학습 및 추론하는 것이며, 2) 학습용 언어 자원이 적은 한국어에 적용하기 위해 전이학습을 활용하여 선수학습 후 파인-튜닝 기법을 통해 적은 학습 데이터 문제를 해결하고자 하는 것입니다. 본 연구의 연차별 연구 계획은 다음과 같습니다. [1차년도]에는 대용량 텍스트를 활용하여 자가 학습하는 선수학습 언어 모델 연구를 집중적으로 진행합니다. 언어 모델 학습을 위해 한국어에 가장 적절한 토크나이제이션(tokenization)과 다양한 마스킹 전략에 대한 연구가 집중적으로 이루어집니다. [2차년도]에는 적은 리소스의 지도 학습 데이터를 활용한 자연어 처리 파인-튜닝 방법 개발이 이루어집니다. 각 다운스트림 태스크를 고려하여 아키텍처를 확장하는 방법에 관한 연구가 집중적으로 이루어질 것입니다. 다양한 한국어 자연어 처리 문제 중 대표적으로 자연어 생성에서는 언어 모델과 요약, 자연어 이해에서는 기계 독해와 감성 분석, 자연어 태깅에서는 개체명 인식과 의미역 결정과 같은 다운스트림 태스크에 대한 파인-튜닝을 목표로 하고 있으며 대상 다운스트림 태스크는 추후 확장될 수 있습니다. [3차년도]에는 선수학습 및 파인-튜닝 방법을 활용한 범용적 자연어 처리 단일 모델 고도화를 진행합니다. 선수학습 모델을 다운스트림 태스크에 적용했을 때 피드백을 반영하여 선수학습 모델과 파인튜닝 방법을 고도화할 것이며, 고도화된 선수학습 언어 모델을 TPU로 학습하여 연구를 마무리 할 것입니다. 총 3차년에 걸친 연구를 통해 자연어 생성, 자연어 이해와 태깅과 같은 자연어 처리의 여러 문제에 범용적으로 사용될 수 있는 모델의 가능성을 제안 및 검증할 것이며, 지도/비지도 학습 데이터가 부족한 한국어 자연어 처리의 한계를 극복하기 위해 전이학습을 통해 극복하는 가능성에 대해 연구합니다.

자연어 처리

전이학습

선수학습

언어모델

한국어 처리

인공지능

딥러닝