A benchmark dataset for evaluating gender sensitivity in Korean political discourse with large language models | 김태균 교수 연구실 | 한국과학기술원 디지털인문사회과학부

김태균 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 0

·2025

A benchmark dataset for evaluating gender sensitivity in Korean political discourse with large language models

Sunkyoung Park, Eunbi Cho, Chuck C. Jung, Woo Chang Kang, Taegyoon Kim, E. K. Park, Sanghoun Song

IF 6.9 (2025) Scientific Data

초록

대규모 언어 모델은 정치 담론에 점차적으로 적용되고 있으나, 문화적으로 기반을 둔 성별 민감성을 탐지하는 능력은 아직 충분히 탐구되지 않았다. 본 연구에서는 대한민국 국회 회의록 1,222개 발화에 대해 성별 민감성을 6,024개 발화에 걸쳐 주석 처리한 벤치마크 데이터셋 KOGENT를 제안한다. 각 발화는 편향, 차별 또는 포용의 맥락적 지표를 바탕으로 성별 민감성이 높은 경우와 낮은 경우로 라벨링되며, 대상 집단에 대해 태깅된다. KOGENT는 1948년부터 2024년까지의 한국 입법 세션을 포괄한다. 주석 신뢰도는 이중 코딩과 중재를 통해 확보되었으며, 높은 코더 간 일치도를 산출하였다. 발화를 성별 민감성으로 라벨링하는 과업에서 GPT-4.1은 F1-score 87.5%(제로샷)와 91.2%(18-shot)를 달성하였고, GPT-4o는 각각 90.4%와 91.1%를 나타냈다. 도메인 내 예시를 포함하면 모델 성능이 향상되었으나, 두 모델 모두 비평과 불평등의 강화 간의 구별, 문화적으로 특수한 용어, 그리고 확장된 맥락을 다루는 데 한계가 관찰되었다. 본 연구 결과는 KOGENT가 한국 정치 담화에서 성별 민감성을 분석하기 위한 견고한 벤치마크로서 유용하며, 다언어 LLM의 사회문화적 정합성을 평가하는 데 활용될 수 있음을 보여준다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Benchmark (surveying)Sociocultural evolutionUtteranceCoding (social sciences)PoliticsAnnotation

타입

article

IF / 인용수

6.9 / 0

원문

https://doi.org/10.1038/s41597-025-06344-3

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)