Marking Code Without Breaking It: Code Watermarking for Detecting LLM-Generated Code | 김정인 교수 연구실 | 동명대학교 컴퓨터공학부

김정인 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

preprint|

인용수 1

·2025

Marking Code Without Breaking It: Code Watermarking for Detecting LLM-Generated Code

Jungin Kim, Shinwoo Park, Yo-Sub Han

ArXiv.org

초록

워터마킹을 통해 LLM이 생성한 코드를 식별하는 것은 기능적 정확성을 보존하는 데 있어 어려움을 수반한다. 기존 방법들은 고엔트로피 토큰에 워터마킹을 적용하면 출력 품질이 효과적으로 유지된다는 가정에 의존한다. 그러나 우리의 분석은 이러한 가정의 근본적인 한계를 밝혀낸다. 키워드와 같은 문법에 치명적인 토큰은 종종 가장 높은 엔트로피를 나타내며, 이로 인해 기존 접근법들이 논리적 손상에 취약해진다. 우리는 비문법(non-syntactic) 토큰에만 워터마크를 내장하고 코드의 무결성을 보존하는 문법 인지(syntax-aware) 워터마킹 방법 STONE을 제시한다. 엄밀한 평가를 위해, 정확성, 검출 가능성, 비식별성의 세 가지 핵심 차원을 균형 있게 고려하는 포괄적 지표 STEM도 함께 도입한다. Python, C++, Java 전반에 걸쳐 STONE은 정확성을 보존하고 강한 검출 가능성을 유지하면서, 최소한의 계산 오버헤드로 균형 잡힌 성능을 달성한다. 구현 코드는 https://github.com/inistory/STONE-watermarking 에서 제공된다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Digital watermarkingCode (set theory)Metric (unit)WatermarkSource codeInformation hiding

타입

preprint

IF / 인용수

- / 1

원문

http://arxiv.org/abs/2502.18851

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)