시각-언어 모델(Vision–Language models, VLMs)은 자연 이미지 영역에서 괄목할 만한 성과를 거두었으나, 고품질의 공동 이미지-텍스트 데이터셋이 부족하여 농업 분야에서의 잠재력은 상대적으로 덜 탐구되어 있다. 이러한 한계를 해결하기 위해 우리는 VL-PAW(Vision–Language dataset for Pear, Apple, and Weed)를 소개한다. VL-PAW는 두 가지 핵심 농업 과제인 잡초 종 분류와 과일 검사에 대해 총 3.9K(3.9 thousand)개의 이미지-캡션 쌍으로 구성된 데이터셋이다. 우리는 VL-PAW에서 CLIP 모델을 미세조정(fine-tune)하고 여러 통찰을 얻었다. 첫째, 모델은 우수한 제로샷 성능을 보이며, 거친 라벨(coarse labels) 분류에서 98.21%의 정확도를 달성한다. 둘째, 세부 범주(fine-grained)에서는 시각-언어 모델이 시각 전용(vision-only) 모델보다 소수 샷 환경과 전체 데이터셋 학습 모두에서 더 뛰어난 성능을 보인다(1-shot: 56.79%; 2-shot: 72.82%; 3-shot: 74.49%; 10-shot: 83.85%). 셋째, 직관적인 캡션을 사용하면 클래스 이름만을 사용하는 경우에 비해 세부 수준의 과일 검사 성능이 향상된다. 이러한 결과는 향후 농업 질의 시스템에서 VLM의 적용 가능성을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.