개념 기반 해석가능 학습과 개입 절차의 견고성 연구

Robust Concept-Intervention Learning for Interpretable Models

연구 내용

개념 병목 모델의 개입 절차에서 개입 개념 선택과 세분성을 설계하고, 노이즈 어노테이션 상황에서 해석가능성과 개입 효과를 보존하는 연구

개념 병목 모델(Concept Bottleneck Models)은 입력을 사람 해석 가능한 개념으로 분해해 예측하며, 시험 시점에 전문가가 개념을 개입해 오류를 수정할 수 있습니다. 본 연구는 개입이 실제로 얼마나 효과적인지에 영향을 주는 개입 개념 선정 규칙과 개입 세분성의 구조를 탐구하고, 동일한 개입 횟수 조건에서도 개입 전략에 따라 태스크 오류가 달라지는 원인을 분석합니다. 또한 개념 어노테이션이 노이즈를 포함할 때 성능 저하와 해석가능성 손실이 동시에 발생하며, 그중 특정 개념이 취약하게 영향을 주는 현상을 체계적으로 식별합니다. 이를 바탕으로 학습 단계에서는 샤프니스 안정화 전략을 적용하고, 추론 단계에서는 예측 엔트로피를 이용해 취약 개념을 우선 교정하는 프레임워크를 제안합니다.

관련 프로젝트

5건

연구 흐름

초기 연구는 개념 병목 모델의 시험 시점 개입 가능성을 중심으로, 개입 개념을 어떻게 선택하고 어떤 세분성으로 개입할지에 따른 효과 차이를 분석하는 데 집중했습니다. 이후 2023년~2025년으로 진행되며 실제 데이터뿐 아니라 인과 그래프 기반 합성 데이터로 개입 절차의 동작 조건을 점검하고, 신뢰성과 공정성 관점의 취약 지점을 정리했습니다. 2025년에는 노이즈 어노테이션이 개념 정확도, 예측 성능, 개입 효과에 미치는 영향을 체계적으로 측정하고, 취약 개념을 우선 교정하는 2단계 완화 전략으로 확장했습니다. 그 결과 개념 구조화 및 다중모달 추론과 결합 가능한 견고한 개입 설계로 연구 궤적을 확장했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

개념 수준 오류 진단
개입 기반 예측 수정
노이즈 어노테이션 견고성
해석가능성 유지 학습
개념 선택 규칙 설계
예측 엔트로피 기반 교정
인과 그래프 검증 프레임
신뢰성과 공정성 평가
설명가능 멀티모달 추론
퓨샷 환경 개념 추론