RnDCircle Logo
우홍욱 연구실
성균관대학교 소프트웨어학과 우홍욱 교수
뉴럴-심볼릭 학습
체화 지능
강화학습 정책 적응
기본 정보
연구 분야
프로젝트
논문
구성원

우홍욱 연구실

성균관대학교 소프트웨어학과 우홍욱 교수

우홍욱 연구실은 소프트웨어학과 관점에서 인공지능 시스템과 응용을 위한 소프트웨어 기술을 연구합니다. 딥러닝에서 데이터 제한 환경을 다루기 위해 self-supervised learning, transferable learning, federated learning, GAN 기반 증강을 결합한 학습 전략을 수행합니다. 또한 AI 소프트웨어의 신뢰성을 위해 성숙도 기반 평가 모델을 제안하고 공정성·안전성 요구를 프로세스로 정리합니다. 체화 지능에서는 Large Language Model과 symbolic tool을 결합한 neuro-symbolic continual learner와 환경 맥락 기반 retrieval-augmented planning을 통해 추론·계획을 구현합니다. 학습 및 적응의 효율을 확보하기 위해 증류와 in-context policy adaptation을 포함한 방법론을 병행합니다.

뉴럴-심볼릭 학습체화 지능강화학습 정책 적응스킬 디퓨전자기지도학습
대표 연구 분야
연구 영역 전체보기
신뢰가능 AI 소프트웨어 개발 성숙도 및 거버넌스 연구 thumbnail
신뢰가능 AI 소프트웨어 개발 성숙도 및 거버넌스 연구
Trustworthy AI Software Development Maturity and Governance
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

46총합

5개년 연도별 피인용 수

244총합
주요 논문
5
논문 전체보기
1
article
|
인용수 0
·
2025
In-Context Policy Adaptation via Cross-Domain Skill Diffusion
Minjong Yoo, Wookyung Kim, Honguk Woo
Proceedings of the AAAI Conference on Artificial Intelligence
본 연구에서는 장기 지평(multi-horizon) 다중과제 환경을 위한 문맥 내 정책 적응(in-context policy adaptation, ICPAD) 프레임워크를 제시하며, 교차 도메인 환경에서 확산 기반 기술(스킬) 학습 기법을 탐구한다. 이 프레임워크는 특히 모델 업데이트가 불가능하고 목표 도메인 데이터가 제한적인 엄격한 제약 하에서, 기술 기반 강화학습 정책을 다양한 목표 도메인에 대해 신속하게 적응할 수 있도록 한다. 구체적으로, 본 프레임워크는 교차 도메인 기술 확산(cross-domain skill diffusion) 방식을 활용하는데, 도메인 비특화(prototype) 기술과 도메인 기반(domain-grounded) 기술 어댑터를 교차 도메인 일관성 확산 과정으로 오프라인 데이터셋으로부터 함께 학습하며 효과적으로 결합한다. 도메인 비특화 기술은 장기 지평 정책의 공통 행동 표현을 위한 기본 요소(primitives)로 작용하여, 서로 다른 도메인을 연결하는 공용 언어(lingua franca) 역할을 한다. 또한 문맥 내 적응 성능을 향상시키기 위해, 확산 기반 기술 어댑터가 목표 도메인과 더 잘 정렬(alignment)되도록 유도하는 동적 도메인 프롬프팅(dynamic domain prompting) 방식을 개발한다. Metaworld에서의 로봇 조작과 CARLA에서의 자율주행 실험을 통해, 본 ICPAD 프레임워크가 환경 역학, 에이전트 신체(embodiment), 과제의 지평(horizon) 차이를 포함하는 다양한 교차 도메인 구성에서, 목표 도메인 데이터가 제한된 조건 하에서도 우수한 정책 적응 성능을 달성함을 보여준다.
https://doi.org/10.1609/aaai.v39i21.34373
Adaptation (eye)
Context (archaeology)
Diffusion
Domain adaptation
Domain (mathematical analysis)
Computer science
Psychology
Cognitive psychology
Artificial intelligence
Geography
2
article
|
인용수 1
·
2025
Aspect-augmented distillation of task-oriented dialogues to small language models
Jongmoon Jun, Woo Kyung Kim, Hyunseong Na, Honguk Woo, Jeehyeong Kim
IF 7.5 (2025)
Expert Systems with Applications
• 사용자 측면을 고려하면 과업 지향 대화 성능이 향상된다 • 대규모 언어 모델은 사용자 측면에 적응하지만, 소규모 모델은 측면 인식이 부족하다 • 대규모 언어 모델은 증류를 위한 측면 특화 합성 대화를 생성한다 • 대규모에서 소규모 언어 모델로 측면 인식 역량을 증류한다 대규모 언어 모델(LLM)을 활용한 대화 시스템 개발에 관한 연구는 광범위하게 진행되어 왔으며, 주로 LLM의 능력을 활용하여 문맥적으로 미묘한 응답을 생성하는 데 의존해 왔다. 그러나 이러한 접근법은 특히 과업 지향 대화(ToD) 시나리오에서, 대화 시스템이 인간과의 개인화된 상호작용에 참여해야 하는 상황에서는, 소규모 언어 모델(sLM)로의 전이가 용이하지 않다. 본 논문에서는 sLM 기반 ToD 시스템을 위한 LLM 증류(distillation) 접근법을 조사하고, Aspect-Augmented Dialogue Distillation(A2D2) 프레임워크를 제안한다. 이 프레임워크는 과업별 요구사항의 충족을 보장하면서, LLM의 인간 측면 인식 역량을 sLM에 압축하는 것을 목표로 한다. 해당 프레임워크는 LLM 기반 ToD 데이터 생성에 인간의 측면들을 개별적으로 통합하여 LLM-to-sLM 증류 과정의 효과성과 효율성을 향상시키며, 그 결과 다양한 사용자에게 적응 가능하고 과업 성공률이 더 높은 강건한 sLM 기반 ToD 시스템을 구축한다. A2D2를 통해 도출된 sLM 기반 ToD 시스템은, 새로운 과업 설정을 포함하여 다양한 ToD 시나리오에서 경쟁력 있는 성능을 보이며, 복수의 측면으로 특징지어지는 폭넓은 합성 사용자들에 적응함을 보여준다.
https://doi.org/10.1016/j.eswa.2025.130494
Distillation
Task (project management)
Set (abstract data type)
Language model
Language understanding
Range (aeronautics)
3
article
|
인용수 2
·
2023
A Configurable Model-Based Reinforcement Learning Framework for Disaggregated Storage Systems
Seunghwan Jeong, Honguk Woo
IF 3.4 (2023)
IEEE Access
데이터 집약적 작업의 급속한 증가와 저장 장치에 서로 다른 하드웨어가 사용됨에 따라, 데이터센터의 운영 비용 효율을 개선하기 위해 분산형 저장(disaggregated storage) 아키텍처 시스템이 활용되고 있다. 분산형 저장 시스템의 하드웨어 이질성 및 혼합 구성과 더불어 다양한 워크로드의 존재는, 관리자들이 이를 최적으로 운영하는 데 어려움을 야기하는 경우가 많다. 본 연구에서는 셀프 관리형 저장 시스템에서 다양한 시스템 설정과 워크로드 전반에 걸쳐 저장 성능을 유지하면서 자동화된 시스템 운영을 개발하기 위한 모델 기반 강화학습(RL) 기법을 조사한다. 구체적으로, 시스템 환경을 저장 장치의 2계층 계층구조와 플랫폼의 관점에서 추상화하여, 주어진 시스템 사양에 따라 환경을 재구성할 수 있는 새로운 구성 가능(configurable) 모델 구조를 제안한다. 이러한 새로운 모델 구조를 기반으로, 우리는 CoMoRL이라는 구성 가능 모델 기반 RL 프레임워크를 구현하였으며, RL 에이전트는 다양한 저장 시스템 사양을 나타내는 모델 변형(model variants)을 통해 학습된다. 따라서 실제 저장 시스템의 다양한 운영 조건에 대해 학습된 관리 정책은 높은 강인성을 가질 수 있다. 우리는 NVMe-oF 장치에 의존하는 저장 클러스터를 사용하여 CoMoRL 프레임워크를 평가하고, Kubernetes의 볼륨 배치(volume placement) 시나리오와 Ceph의 주(prim ary) 애피니티(primary affinity) 제어 시나리오 등 서로 다른 시나리오에 프레임워크가 적응 가능함을 보여준다. 학습된 관리 정책은 모델 및 정책의 재학습 없이도, 다양한 Kubernetes 시스템 사양에 대해서는 IOPS 기반 휴리스틱 방법 대비 0.7%~5.1%, 모델 기반 방법 대비 11.8%~29.7% 더 우수하며, 다양한 Ceph 시스템 사양에 대해서는 각각 1.6%~5.6% 및 8.2%~16.5% 더 우수하다. 본 프레임워크의 제로샷(zero-shot) 적응 우수성은, 시스템 변경이 빈번한 데이터센터에서 RL 기반 셀프 관리형 저장 시스템을 구현할 수 있게 한다.
http://dx.doi.org/10.1109/access.2023.3244388
Computer science
Reinforcement learning
Computer data storage
Variety (cybernetics)
Heuristic
Distributed computing
Hierarchy
Embedded system
Operating system
Artificial intelligence
최신 정부 과제
42
과제 전체보기
1
2026년 2월-2029년 2월
|195,505,000
실세계 범용 체화 지능 실현을 위한 반응형 스킬 디퓨전 연구
기존 일반화 스킬 정책은 환경의 비정형적 다양성에 대응함. 신규 제안 과제는 반응형 스킬 디퓨전은 실세계 동적 시공간 변화에 즉각적 대응하는 것임. 실세계 적응·에이전트 협력·지속성장을 위한 반응형 스킬 디퓨전 기술 개발을 목표로함. 이를 위해 3가지 세부 과제를 제안함.(1) 실세계 적응을 위한 월드 모델 기반 스킬 디퓨전(World Model-Guid...
반응형 스킬 디퓨전
실세계 범용 체화 지능
2
2025년 6월-2030년 12월
|1,050,000,000
AI스타펠로우십지원(서울대학교)
4D+5S+6R: 시공간 데이터(4D), 다감각 정보(5S), 6대 로봇 기술(6R)을 통한 초지능형 AI 에이전트의 핵심 기술을 선도적으로 개발하고 인재를 양성함
인공지능
증강 휴먼
에이전틱 AI
초개인화
인지 및 추론
3
2025년 6월-2030년 12월
|2,000,000,000
AI스타펠로우십지원(울산과학기술원)
본 과제는 강건한 VLA(시각-언어-행동) 통합지능 온디바이스 제조 AI 원천기술을 개발하고 제조 현장에 적용 및 검증을 통해 AI 기반 제조 산업의 혁신을 선도하는 글로벌 최고 수준의 융합형 신진연구자 양성을 목표로 함.
인공지능
자율제조
VLA 모델
온디바이스 AI
강화학습
최신 특허
특허 전체보기
상태출원연도과제명출원번호상세정보
공개2024목적 지향 정책 학습 장치 및 그 방법1020240104034
공개2024스킬 그라운딩 장치 및 방법1020240102839
공개2024SLM을 위한 정책 생성 장치 및 생성방법1020240102441
전체 특허

목적 지향 정책 학습 장치 및 그 방법

상태
공개
출원연도
2024
출원번호
1020240104034

스킬 그라운딩 장치 및 방법

상태
공개
출원연도
2024
출원번호
1020240102839

SLM을 위한 정책 생성 장치 및 생성방법

상태
공개
출원연도
2024
출원번호
1020240102441

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.