Self-training for Cyber Threat Classification and CTI Annotation
연구 내용
시드 라벨을 기반으로 의사 라벨을 생성하는 자기학습 파이프라인을 구축하고, 위협 페이로드 특성을 반영한 증강으로 CTI 자동 주석과 위협 분류 정확도를 향상하는 연구
사이버 보안 운영에서 발생하는 새 위협과 클래스 불균형 문제를 고려하여, 제한된 라벨 세트로부터 의사 라벨을 생성하는 자기학습 기반 분류 모델을 구성합니다. 또한 위협-페이로드 중심 증강을 적용해 학습 데이터의 편향을 완화하고, 사회관계망 기반 CTI 텍스트에서 비용이 큰 수작업 주석 없이도 반복 학습이 가능하도록 설계합니다. 결과적으로 라벨링 부담을 줄이면서도 신규 위협 이벤트에 대한 분류 성능을 유지하는 학습 절차를 구현합니다.
관련 연구 성과
관련 논문
0편
관련 특허
0건
관련 프로젝트
0건
연구 흐름
초기에는 딥러닝 기반 위협 분류가 SOC 운영에서 겪는 라벨링 비용과 신규 트렌드 대응 한계를 분석하고, 신뢰도 기반 의사 라벨링으로 자동 라벨을 생성하는 방향을 설정했습니다. 이후 클래스 불균형을 줄이기 위해 위협-페이로드 특성을 반영한 증강을 학습 파이프라인에 통합했습니다. 2025년에는 CTI 포스트 수준의 자동 주석 문제로 확장하여, 소량 시드에서 시작해 다단계 반복으로 대규모 비라벨 데이터를 정제하는 프레임워크를 제안했습니다. 함께 데이터셋 공개와 스케일성 분석을 통해 실무 적용 가능성을 높였습니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.