텍스트-이미지 확산 모델은 교차-주의(cross-attention)를 활용하여 텍스트 정보를 시각 잠재 공간에 통합하지만, 텍스트 임베딩에서 잠재 특성으로의 변환 과정은 대체로 충분히 탐구되지 않았다. 우리는 단일값 분해(singular value decomposition)를 통한 분광(spectral) 분석으로 교차-주의 계층 내 출력값(output-value, OV) 회로의 기전적(mechanistic) 분석을 제시한다. 우리의 분석은 의미 개념이 교차-주의 head들 전반에 걸친 OV 회로의 특이벡터(singular vectors)가 생성하는 저차원 부분공간에서 부호화됨을 보여준다. 이를 검증하기 위해 확산 과정에서 개념 관련 구성요소에 개입(intervention)하여, 확인된 분광 성분에 대한 개입이 개념 변화를 유발함을 입증한다. 또한 고립된 부분공간의 시각적 출력과 텍스트 임베딩 공간의 정렬(alignment)을 살펴 해당 결과를 추가로 검증한다. 이러한 기전적 이해를 바탕으로, 기존 방법과 필적하는 성능을 유지하면서 목표하는 개념 제거를 달성하려면 오직 이러한 분광 성분을 무효화(nullifying)해야 함을 보이며, 동시에 해석 가능성(interpretability)을 제공한다. 본 연구는 교차-주의 계층이 OV 회로의 분광 부분공간에서 의미 개념을 부호화하는 방식을 규명함으로써 기전적 통찰을 제공하고, 재학습 없이도 정밀한 개념 조작을 가능하게 한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.