로봇공학 분야에서 대규모 언어 모델(Large Language Models, LLM)의 활용이, 특히 인간의 명령을 이해하는 영역에서 점차 보편화되고 있다. 특히 LLM은 고수준의 인간 명령을 위한 도메인 비특정(task-agnostic) 태스크 플래너로 사용된다. LLM은 Chain-of-Thought(CoT) 추론을 수행할 수 있으며, 이를 통해 LLM은 태스크 플래너로 기능할 수 있다. 그러나 현대의 로봇은 여전히 복잡한 행동을 수행하는 데 어려움이 있고, 로봇을 배치할 수 있는 도메인도 현실적으로 제한적이다. 이에 따라 다음과 같은 질문을 제기한다. 만약 소형 LLM을 단일 도메인 내에서 연쇄적으로 추론하도록 학습할 수 있다면, 소형 LLM 역시 로봇을 위한 좋은 태스크 플래너가 될 수 있는가? 연쇄적 추론을 수행하도록 소형 LLM을 학습하기 위해, LLM을 통해 고수준 명령과 이에 대응하는 실행 가능한 저수준 단계로 이루어진 `COmmand-STeps datasets' (COST) 를 구축한다. 우리는 누구든지 자신의 도메인에 맞는 데이터셋을 구축할 수 있도록, 데이터셋뿐 아니라 이를 생성하는 데 사용한 프롬프트 템플릿도 함께 공개한다. 우리는 태스크 도메인에서 GPT3.5와 GPT4를, 파인튜닝된 GPT2와 비교하며, 탁자 위(tabletop) 및 주방(kitchen) 환경에서 실험한 결과, GPT2-medium이 특정 도메인에서의 태스크 계획 측면에서 GPT3.5와 유사한 성능을 보임을 확인하였다. 본 데이터셋, 코드 및 추가 출력 예시는 https://github.com/Gawon-Choi/small-LMs-Task-Planning 에서 확인할 수 있다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.