셀렉트스타 주식회사
레드티밍을 위한 반응-전략 네트워크 생성방법, 시스템, 및 컴퓨터-판독가능 저장매체
The Method, System, and Computer-readable Storage Medium of Creating a Reaction-Strategy Network for Red Teaming
특허 요약
본 발명은 레드티밍을 위한 반응-전략 네트워크 생성방법, 시스템, 및 컴퓨터-판독가능 저장매체로써, 더 구체적으로는, LLM을 통해 공격프롬프트에 대한 반응을 도출하고 반응에 대한 평가점수를 도출한 뒤 평가점수에 기초한 전략을 도출하여 상기 반응에 따른 반응네트워크, 및 상기 전략에 따른 전략네트워크를 생성하는, 레드티밍을 위한 반응-전략 네트워크 생성방법, 시스템, 및 컴퓨터-판독가능 저장매체에 관한 것이다.
청구항
번호청구항
1

1 이상의 프로세서 및 1 이상의 메모리를 포함하는 서버시스템에서 수행되는 레드티밍(Red Teaming)을 위한 반응-전략 네트워크 생성방법으로써,공격프롬프트생성모듈에 공격프롬프트에 대한 생성 요청을 포함하는 시드를 입력하여 공격프롬프트를 생성하는 공격프롬프트생성단계;상기 공격프롬프트를 타겟LLM에 입력하여 반응을 도출하는 반응도출단계;상기 반응을 평가모듈에 입력하여 해당 반응에 대한 평가점수를 도출하는 평가점수도출단계;동일한 시드에 대하여 평가점수가 서로 다른 2개의 공격프롬프트, 반응, 및 평가점수를 포함하는 전략페어를 선정하고, 전략도출모듈에 상기 시드, 제1공격프롬프트, 제2공격프롬프트, 제1반응, 제2반응, 제1평가점수, 및 제2평가점수를 입력하여 상기 제1공격프롬프트에 상응하는 전략을 도출하되, 상기 제1공격프롬프트는 상기 제2공격프롬프트보다 평가점수가 높은 공격프롬프트에 해당하는 전략도출단계;시드, 제1공격프롬프트, 제2공격프롬프트, 제1반응, 제2반응, 제1평가점수와 제2평가점수의 차, 및 전략을 하나의 세트로 하여 서버시스템의 라이브러리에 저장하는 라이브러리저장단계;상기 제1반응보다 평가점수가 낮은 상기 제2반응에 대하여, 상기 제2반응 각각을 노드로 하는 복수의 반응노드를 포함하는 반응네트워크를 생성하는 반응네트워크생성단계; 및상기 전략 각각을 노드로 하는 복수의 전략노드를 포함하는 전략네트워크를 생성하는 전략네트워크생성단계;를 포함하는, 반응-전략 네트워크 생성방법.