데이터 주석은 새로운 데이터셋을 구축하기 위한 필수 단계이다. 그러나 크라우드소싱을 통한 기존의 데이터 주석 방식은 시간과 비용이 모두 많이 소요된다. 또한 크라우드워커의 언어 풀 차이로 인해 저자원 언어를 다룰 때 이 과정의 복잡성이 더욱 증가한다. 이러한 문제를 해결하기 위해 본 연구에서는 최근 괄목할 만한 성능을 보인 대규모 언어 모델을 활용하여 자율적 주석 방법을 제안한다. 실험을 통해, 제안한 방법이 단지 비용 효율적일 뿐 아니라 저자원 언어 주석에도 적용 가능함을 입증한다. 추가로, 본 접근법을 사용하여 이미지 캡셔닝 데이터셋을 구축하였으며, 향후 연구를 위해 이 데이터셋을 공개하고자 한다. 재현성을 위해 소스 코드를 공개하였다. 1 * NLLB (기계 번역):Dziewczyna graj ca na tr bce w zespole.(밴드에서 트럼펫을 연주하는 소녀.)* GPT Annotator w/ GPT-4: Dziewczyna graj ca na tr bce w orkiestrze marszowej.(행진 오케스트라에서 트럼펫을 연주하는 소녀.)생성 문장의 품질 - Flickr
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.