코드 이해용 검색-증강 트랜스포머와 안전성 평가

Retrieval-Augmented Transformer for Code Understanding and Safety Evaluation

연구 내용

소스 코드 요약과 코드 질의응답을 검색-증강 트랜스포머로 생성하고, LLM에 대한 하드 블랙박스 공격의 쿼리 비용을 줄이는 평가·공격 기법을 함께 연구하는 연구

개발자의 소스 코드 이해 부담을 줄이기 위해, 이지형 연구실은 코드의 구조·순차 정보를 반영하는 트랜스포머 기반 생성 모델에 유사 코드 검색 결과를 결합하는 검색-증강 방식을 적용합니다. READSUM 계열에서는 원문 코드 표현과 검색된 요약을 임베딩 단계부터 결합하고, 인코더에서 구조·순차 특성을 적응적으로 학습하며 디코더에서 검색과의 관계를 반영해 요약을 생성합니다. 또한 코드 질의응답에서는 질문 의미 의도에 맞춘 API 문서 검색을 선택적으로 수행해 응답 품질을 높이는 구조를 다룹니다. 더불어 모델 접근이 제한된 하드 블랙박스 조건에서 대상 모델 출력 없이도 제어 생성으로 적대 예제를 생성하는 방법을 통해 안전성 평가의 현실 제약을 고려한 연구를 수행합니다.

관련 프로젝트

3건

연구 흐름

코드 이해 문제에서 2023년에는 소스 코드 요약을 추상 생성과 추출 기반 핵심 키워드 보강을 결합하는 방식으로 정식화하고, 2023년에는 검색된 유사 코드 정보를 트랜스포머의 표현 결합 과정에 통합하는 READSUM을 제안했습니다. 이후 2025년에는 코드 질의응답으로 확장하여 질문 의미 의도에 맞춘 API 문서 검색을 선택적으로 수행하는 CoRAC 구조를 구성했습니다. 동시에 2025년에는 생성형 모델의 취약성 평가를 위해 하드 블랙박스 공격을 현실적으로 반영한 Q-FAKER를 제안하여, 쿼리 없는 생성과 대리 모델 기반 전이를 중심으로 공격 효율성을 개선하는 흐름으로 확장했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

코드 요약 자동 생성
소스 코드 유지보수 지원
질문 의도 기반 API 검색
코드 Q&A 시스템 구축
검색-증강 생성 파이프라인
개발 문서 자동 작성
코드 검색·추천 보조
대상 모델 비접근 취약성 평가
쿼리 비용 최소화 공격 기법
적대 예제 생성 기반 견고성 점검