LLM 기반 인간-로봇 상호작용: 음성 이해, 계획, 실패 감지

LLM-Based Human-Robot Interaction: Voice Understanding, Task Planning, and Failure Detection

연구 내용

음성 명령과 장면 정보를 입력으로 LLM 및 소형 언어모델이 태스크를 계획하고 실패를 감지·재계획하는 연구

인간의 고수준 지시를 로봇의 실행 가능 작업으로 변환하기 위해, 음성 인지와 장면 구조 정보를 결합한 LLM 기반 상호작용 프레임워크를 연구합니다. 간접적 표현을 포함한 음성 명령에서 목표 물체를 추정하기 위해 객체 탐지와 LLM 프롬프트를 활용하는 구조를 제안합니다. 또한 체인 형태 추론이 가능한 소형 언어모델의 태스크 플래닝 성능을 평가하고, 행동 가능한 스텝으로 매핑되는 학습 데이터셋을 구성합니다. 최근에는 멀티뷰 장면에서 scene graph를 생성하고, LLM이 예측한 기대 구조와의 차이를 failure detector로 활용해 원인 기반 재계획을 수행합니다.

관련 프로젝트

0건

연구 흐름

초기에는 로봇 온보드 인식과 음성 입력을 결합해, 명시적 지시뿐 아니라 간접적 의도도 포함한 물체 검색을 수행하는 음성 비서 시스템을 제안합니다. 이후에는 LLM의 역할을 태스크 플래닝으로 한정하고, 소형 언어모델이 단일 도메인 내에서 체인 추론을 학습할 수 있는 데이터 구성 방식을 제시합니다. 최근에는 복잡한 장면에서 계획 실패를 줄이기 위해 멀티뷰 기반 scene graph를 구성하고, 그래프 편차를 실패 원인 추정에 연결한 뒤 계획 단계의 LLM에 피드백하여 재계획하는 방향으로 확장되었습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

간접 의도 기반 물체 검색
음성 명령 기반 pick-and-place 실행
소형 언어모델 도메인 태스크 플래닝
프롬프트 설계 기반 작업 의도 추정
멀티뷰 장면 그래프 추론
실패 감지 기반 재계획 루프
원인 기반 작업 수정 모듈
로봇용 작업 데이터셋 생성 파이프라인
VLM·LLM 결합 작업 안정화
인간-로봇 대화형 작업 지시 시스템

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)