도표를 해석하는 방법을 둘러싼 수많은 시도는 역사적으로 인간의 실용성에 부합하기보다는 성능 향상에 더 초점을 맞추어, 우리를 근본 목적에서 의도치 않게 벗어나게 해 왔다. 도표 해석에서의 주관적 지식은 적용 맥락에 따라 달라지므로, 기초 정보에 기반한 해석의 자율성을 반드시 보장할 필요가 있다. 이를 위해서는 인간의 지각에 근거하여 계층적으로 직관적인 정보를 제공해야 한다. 본 연구에서는 토큰의 공간적 특성에 따라 캡션 정보를 점진적으로 확장하여 다층 구조의 캡션을 제공하는 “Caption Hierarchical Segmentation”이라는 캡션 활용 방법의 체계적 확장을 제안한다. 이 접근은 인간이 지각할 수 있는 범위에 근거하여, 응용 측면에서 다재다능하도록 모델을 훈련하는 데 도움을 준다. 기존의 도표 설명 모델에 본 방법을 통합하면, 모델이 오해를 만들거나 과적합되는 것을 방지하는 역할을 한다. 이는 그렇지 않으면 해석이 불가능한 샘플에 대해 단순한 설명을 제공함으로써, 단지 직관적인 정보만을 제공하고 잘못된 응답을 회피하게 하기 때문이다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.