대규모 언어 모델은 정치 담론에 점차적으로 적용되고 있으나, 문화적으로 기반을 둔 성별 민감성을 탐지하는 능력은 아직 충분히 탐구되지 않았다. 본 연구에서는 대한민국 국회 회의록 1,222개 발화에 대해 성별 민감성을 6,024개 발화에 걸쳐 주석 처리한 벤치마크 데이터셋 KOGENT를 제안한다. 각 발화는 편향, 차별 또는 포용의 맥락적 지표를 바탕으로 성별 민감성이 높은 경우와 낮은 경우로 라벨링되며, 대상 집단에 대해 태깅된다. KOGENT는 1948년부터 2024년까지의 한국 입법 세션을 포괄한다. 주석 신뢰도는 이중 코딩과 중재를 통해 확보되었으며, 높은 코더 간 일치도를 산출하였다. 발화를 성별 민감성으로 라벨링하는 과업에서 GPT-4.1은 F1-score 87.5%(제로샷)와 91.2%(18-shot)를 달성하였고, GPT-4o는 각각 90.4%와 91.1%를 나타냈다. 도메인 내 예시를 포함하면 모델 성능이 향상되었으나, 두 모델 모두 비평과 불평등의 강화 간의 구별, 문화적으로 특수한 용어, 그리고 확장된 맥락을 다루는 데 한계가 관찰되었다. 본 연구 결과는 KOGENT가 한국 정치 담화에서 성별 민감성을 분석하기 위한 견고한 벤치마크로서 유용하며, 다언어 LLM의 사회문화적 정합성을 평가하는 데 활용될 수 있음을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.