표준 학습에서 클래스 간 정확도 격차는 적대적(adversarial) 학습 중에 증폭되며, 이 현상을 강건 공정성(robust fairness) 문제라고 한다. 기존의 방법들은 강건 공정성을 향상시키기 위해 쉬운 클래스에서의 모델 성능을 희생하여 더 어려운 클래스에 대한 성능을 개선하는 방식으로 접근해 왔다. 그러나 우리는 적대적 공격 하에서 최악 클래스(worst class)에 속한 표본에 대한 모델의 예측이 쉬운 클래스 쪽으로 치우치기보다는 최악 클래스와 유사한 클래스 쪽으로 편향됨을 관찰하였다. 이론적 및 경험적 분석을 통해, 클래스 간 거리가 감소할수록 강건 공정성이 악화됨을 입증한다. 이러한 통찰에 동기부여되어, 클래스 간 유사성을 고려하는 거리 인지형 공정 적대적 학습(Distance-Aware Fair Adversarial training, DAFA) 방법론을 제안한다. 구체적으로, 우리의 방법은 각 클래스에 대해 서로 다른 손실 가중치와 적대적 마진을 부여하고, 유사한 클래스 간에서 강건성의 상충(trade-off)이 이루어지도록 이를 조정한다. 다양한 데이터셋에 걸친 실험 결과는 본 방법이 평균 강건 정확도(robust accuracy)를 유지할 뿐 아니라 최악의 강건 정확도를 유의하게 개선하여, 기존 방법에 비해 강건 공정성이 뚜렷하게 향상됨을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.