본 연구에서는 대화형 인공지능이 갖는 고질적인 편향성(Bias) 문제를 '특정 집단 또는 개인을 향한 차별과 혐오표현'으로 정의하고, 인공지능의 공정성과 신뢰성 향상을 위해 소셜미디어 텍스트의 편향성을 완화하는 학습 방법을 제안한다. 또한 제안 방법을 확장하여 언어/문화적 차이와 편향과의 관계를 밝히는 융합연구를 진행한다.
대화형 인공지능 모델의 편향성 완화 연구는 다음 세 가지의 단계를 포함한다.
단계 1. 지식 그래프를 활용한 자동 대조 샘플(Contrastive samples) 생성
단계 2. Contrastive learning 방법을 기반으로 한 소셜미디어 텍스트의 편향성을 완화하여 학습하는 방법 제안
단계 3. 자동 생성 된 다국어 Contrastive samples를 활용한 편향과 언어/문화적 연관성 분석