GPTs Are Multilingual Annotators for Sequence Generation Tasks | 이은주 교수 연구실 | 한양대학교 스마트융합공학부

이은주 교수 연구실

홈

기본 정보

연구 분야

논문

구성원

article|

인용수 1

·2024

GPTs Are Multilingual Annotators for Sequence Generation Tasks

Juhwan Choi, Eunju Lee, Kyohoon Jin, YoungBin Kim

초록

데이터 주석은 새로운 데이터셋을 구축하기 위한 필수 단계이다. 그러나 크라우드소싱을 통한 기존의 데이터 주석 방식은 시간과 비용이 모두 많이 소요된다. 또한 크라우드워커의 언어 풀 차이로 인해 저자원 언어를 다룰 때 이 과정의 복잡성이 더욱 증가한다. 이러한 문제를 해결하기 위해 본 연구에서는 최근 괄목할 만한 성능을 보인 대규모 언어 모델을 활용하여 자율적 주석 방법을 제안한다. 실험을 통해, 제안한 방법이 단지 비용 효율적일 뿐 아니라 저자원 언어 주석에도 적용 가능함을 입증한다. 추가로, 본 접근법을 사용하여 이미지 캡셔닝 데이터셋을 구축하였으며, 향후 연구를 위해 이 데이터셋을 공개하고자 한다. 재현성을 위해 소스 코드를 공개하였다. 1 * NLLB (기계 번역):Dziewczyna graj ca na tr bce w zespole.(밴드에서 트럼펫을 연주하는 소녀.)* GPT Annotator w/ GPT-4: Dziewczyna graj ca na tr bce w orkiestrze marszowej.(행진 오케스트라에서 트럼펫을 연주하는 소녀.)생성 문장의 품질 - Flickr

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Sequence (biology)Feature (linguistics)Training setTime sequenceKey (lock)

타입

article

IF / 인용수

- / 1

원문

https://doi.org/10.18653/v1/2024.findings-eacl.2

게재 연도

2024

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)