이은주 교수 연구실
기본 정보
연구 분야
논문
구성원
preprint|
인용수 1
·2024
GPTs Are Multilingual Annotators for Sequence Generation Tasks
Juhwan Choi, Eunju Lee, Kyohoon Jin, Youngbin Kim
arXiv (Cornell University)
초록

데이터 주석은 새로운 데이터셋을 구축하는 데 필수적인 단계이다. 그러나 크라우드소싱을 통한 기존의 데이터 주석 방식은 시간과 비용이 모두 많이 소요된다. 또한, 크라우드워커의 언어 풀(language pool)이 다르기 때문에 저자원 언어를 다루는 경우 이 과정의 복잡성이 더욱 증가한다. 이러한 문제를 해결하기 위해 본 연구에서는 최근 괄목할 만한 성능을 보이는 것으로 입증된 대규모 언어 모델을 활용하여 자율적 주석 방법을 제안한다. 우리의 실험을 통해 제안된 방법이 단지 비용 효율적인 것에 그치지 않고 저자원 언어에 대한 주석에도 적용 가능함을 보여준다. 아울러 본 접근법을 사용하여 이미지 캡셔닝 데이터셋을 구축하였으며, 향후 연구를 위해 이를 공개할 계획이다. 추가 연구와 재현성을 위해 소스 코드를 공개하였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Sequence (biology)Computer scienceNatural language processingArtificial intelligenceChemistry
타입
preprint
IF / 인용수
- / 1
게재 연도
2024

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.