소셜 네트워킹 사이트에서의 사용자 생성 콘텐츠의 확산은 대규모 환경에서 염증성 및 차별적 발화를 정확하고 효율적으로 탐지하는 과제를 한층 더 심화시켰다. 온라인 담론의 방대한 양과 복잡성으로 인해 전통적인 수동 중재 방식은 실질적으로 불가능하며, 자동화된 해결책이 필요하다. 그러나 혐오 발화 탐지를 위한 기존의 딥러닝 모델은 대체로 블랙박스 형태로 동작하여 의사결정 과정에 대한 해석 가능한 통찰 없이 이진 분류만을 제공한다. 이러한 불투명성은 특히 미묘한 콘텐츠 중재 과업에서 실용적 활용도를 크게 제한한다. 본 연구는 이 문제를 해결하기 위해 최첨단 언어 모델인 Mistral-7B의 고도화된 추론 및 지식 통합 능력을 활용하여 투명한 혐오 발화 탐지 시스템을 개발하고자 한다. 우리는 대형 언어 모델(LLM)이 혐오 발화를 시사하는 핵심 텍스트 특징을 식별하고 분석함으로써 명시적 근거(rationale)를 생성하는 새로운 프레임워크를 제안한다. 이후 이러한 근거는 설명 가능한 콘텐츠 중재를 수행하도록 설계된 특화 분류기에 통합된다. 우리는 여러 벤치마크 영어 소셜 미디어 데이터셋에 대해 우리의 방법론을 엄격히 평가한다. 그 결과, LLM이 생성한 설명을 포함하는 것이 혐오 발화 탐지의 해석 가능성과 정확성 모두를 유의미하게 향상시키는 것으로 나타났다. 이 접근법은 문제 소지가 있는 콘텐츠를 효과적으로 식별할 뿐 아니라 각 판단에 대한 분석적 근거를 명확히 제시하여, 자동화된 콘텐츠 중재에서의 투명성에 대한 핵심 요구를 충족한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.