주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
인용수 0
·
2025Efficient Hardware-Assisted Heap Memory Safety for Embedded RISC-V Systems
Hyunjae Park, Yonghae Kim, Dongwook Kang, Hongil Ju, Gaeil An, Yongwoo Kim
IF 3.6 (2025)
IEEE Access
최근 수년간 임베디드 환경에서의 메모리 안전성 이슈는 큰 주목을 받아 왔으며, 힙 메모리에서 발생하는 공간적 및 시간적 메모리 위반은 중요한 보안 위협으로 부상하고 있다. 이러한 과제에 대응하기 위해, 본 논문은 RISC-V 순차(in-order) 프로세서를 대상으로 하는 효율적인 태그 기반 메모리 검증 시스템을 제안한다. 제안된 시스템은 하드웨어 수준의 리플레이(replay) 메커니즘을 통합함으로써 성능 오버헤드를 최소화하도록 설계되었으며, Heap Check Cache(HC-Cache), FIFO Buffer, Store Head Buffer/Clear Head Buffer(SHB/CHB)를 포함한다. 소프트웨어 측면에서는 메타데이터 관리와 태그 생성의 자동화를 위해 확장된 RISC-V ISA 명령 및 수정된 Newlib C 라이브러리를 채택하였고, 사용자 애플리케이션에 대한 추가적인 수정 요구 없이 동작한다. 본 시스템은 Xilinx VC707 보드를 사용한 FPGA 플랫폼에서 구현되었다. 구현 결과, BRAM(0.66%) 및 LUTRAM(0.99%)에 대해서는 최소 오버헤드를 유지하면서 LUT는 16.07% 증가, Flip-Flops는 58.25% 증가하는 것으로 나타났다. Mibench, Olden, SPEC2006과 같은 워크로드를 이용한 성능 평가는 기존 연구에 비해 평균 성능 오버헤드가 유의하게 낮음을 보여주었다. 또한 NIST Juliet Test Suite 1.3을 사용한 검증 결과, 본 시스템은 1,924건의 힙 기반 오버플로우, 803건의 double-free 오류, 394건의 use-after-free 오류를 포함한 힙 관련 취약점의 100%를 성공적으로 탐지하였다. 이러한 결과는 제안된 시스템이 자원이 제한된 임베디드 환경에서도 높은 보안성과 성능 효율을 제공함을 입증한다.
https://doi.org/10.1109/access.2025.3570777
Computer science
Embedded system
Memory safety
Heap (data structure)
Memory protection
Operating system
Parallel computing
Computer hardware
Memory management
Overlay
2
Article
|
인용수 1
·
2025LLTQ+: A Hardware-Friendly Quantization Framework for Modern YOLO Architectures
Yugwon Seo, Jaemyung Kim, Jin-Ku Kang, Yongwoo Kim
IF 3.6 (2025)
IEEE Access
YOLO 기반 객체 검출 모델은 높은 정확도와 빠른 추론 속도 덕분에 실시간 응용 분야에서 널리 사용된다. 그러나 복잡한 아키텍처와 높은 계산 요구량은 저전력 엣지 디바이스에 배포하는 데 있어 어려움을 야기한다. 이를 해결하기 위해, 하드웨어 친화적 양자화 기법인 LLTQ의 향상 버전인 LLTQ+를 제안한다. 제안된 접근법은 Quantization-Aware Training(QAT) 동안 배치 정규화(batch normalization) 계층을 보존하여 학습 안정성과 정확도를 유지하며, YOLO 네트워크의 핵심 구조 구성 요소인 RepConv의 표현력을 보존하는 양자화 전략을 도입한다. PASCAL VOC 데이터셋에 대한 실험 결과는 LLTQ+의 효과를 입증한다. YOLOv10-s에서 LLTQ+는 정수 전용 추론(integer-only inference) 조건에서 mAP(0.5) 80.6%, mAP(0.5:0.95) 61.8%를 달성했으며, 이는 각각 LLTQ 대비 0.9 및 1.7 퍼센트 포인트를 상회한다. YOLOv9-t에서는 LLTQ+가 mAP(0.5:0.95) 52.9%를 달성하여 LLTQ 대비 0.5 포인트 향상되었다. YOLOv7 및 YOLOv7-tiny와 같은 다른 아키텍처에서도 일관된 성능 향상이 관찰되었다. 이러한 결과는 LLTQ+가 최신의 더 복잡한 YOLO 네트워크에 대해서도 정수 양자화를 효과적으로 지원함을 확인해 주며, 정확도와 계산 효율 간의 균형을 이루는 실용적인 양자화 해법을 제공한다.
https://doi.org/10.1109/access.2025.3603536
Computer science
Quantization (signal processing)
Computer architecture
Environmentally friendly
Architecture
Embedded system
Computer vision
3
Article
|
·
인용수 3
·
2023MASCAR: Multidomain Adaptive Spatial–Spectral Variable Compression Artifact Removal Network for Multispectral Remote Sensing Images
Jaemyung Kim, Hyun-Ho Kim, Doochun Seo, Jaeheon Jeong, Jin-Ku Kang, Yongwoo Kim
IF 7.5 (2023)
IEEE Transactions on Geoscience and Remote Sensing
원격탐사 환경에서 영상 압축은 제한된 대역폭과 저장 용량으로 인해 고해상도 영상을 효율적으로 전송하고 저장하기 위해 필수적이다. 그러나 압축은 흔히 영상 품질 저하를 초래하며, 이로 인해 후처리 단계에서 압축 아티팩트 제거 기술이 요구된다. 딥 신경망은 영상 복원에서 주목할 만한 성능을 보여 왔지만, 기존의 대부분 방법은 원격탐사 환경에 특화된 압축 조건을 충분히 고려하지 못했으며 주로 합성 데이터셋에서 평가되었다. 이러한 문제를 해결하기 위해, 본 연구에서는 원격탐사 환경에서 압축된 영상의 지표면 상세 정보를 효과적으로 복원하는 다중도메인 적응형 공간–분광 변수 압축 아티팩트 제거 네트워크(MASCAR)를 제안한다. 입력 국소 패치를 서로 다른 도메인으로 분해하여 다양한 특징을 추출하는 다중도메인 국소-패치 협업 학습 전략을 도입한다. 또한, 미세 텍스처 상세 복원으로 네트워크의 초점을 유도하고 국소 패치의 픽셀 분포에 상당한 편차가 있는 원격탐사 영상을 안정적으로 학습할 수 있도록 하는 상세 중심화 접근법을 제안한다. 더 나아가, 복원된 영상의 디테일을 향상시키기 위한 디테일 향상 접근법도 제시한다. 아울러, 원격탐사 환경에서 알려지지 않은 압축 비율에 유연하게 대응하기 위해 통합된 압축 영상 품질 적응 메커니즘을 제안한다. 제안한 방법을 적용한 MASCAR의 성능은 합성 및 실제 원격탐사 데이터셋에서 평가하였다. 실험 결과는 제안 방법이 기존 방법에 비해 정량적 성능과 시각적 품질이 더 우수함을 보여준다.
https://doi.org/10.1109/tgrs.2023.3347518
Computer science
Multispectral image
Remote sensing
Image compression
Artificial intelligence
Compressed sensing
Data compression
Computer vision
Pixel
Image resolution
4
Article
|
인용수 15
·
2022Target Capacity Filter Pruning Method for Optimized Inference Time Based on YOLOv5 in Embedded Systems
Jihun Jeon, Jaemyung Kim, Jin-Ku Kang, SungTae Moon, Yongwoo Kim
IF 3.9 (2022)
IEEE Access
최근 컴퓨터 비전 분야에서 우수한 성능을 보이는 합성곱 신경망(CNNs)이 주목받고 있다. 그러나 정확도를 높이기 위해 네트워크를 더 넓게 만들수록 매개변수 수와 연산 비용이 지수적으로 증가한다. 따라서 제한된 자원, 연산 성능 및 전력을 갖춘 임베디드 환경에서는 딥러닝 네트워크를 사용하기가 어렵다. 또한 CNN은 추론(inference)에 많은 시간이 소요된다. 이러한 문제를 해결하기 위해 본 연구에서는 목표 용량 및 추론 가속을 위한 최적의 네트워크 아키텍처를 제공하는 실용적인 필터 가지치기(filter pruning) 방법을 제안한다. 추론 시간과 FLOPs 간의 상관관계를 규명한 후, 원하는 추론 시간을 갖는 네트워크를 생성하는 방법을 제안하였다. 제안된 필터 가지치기 방법의 성능을 평가하기 위해 다양한 객체 검출(object detection) 데이터셋을 사용하였다. 가지치기된 네트워크의 추론 시간은 NVIDIA Jetson Xavier NX 플랫폼을 사용하여 측정하고 분석하였다. 그 결과, PASCAL VOC 데이터셋에서 YOLOv5 네트워크의 매개변수 수 및 FLOPs를 각각 30%, 40%, 50% 가지치기했을 때 mAP는 각각 0.6%, 2.3%, 2.9% 감소한 반면, 추론 시간은 각각 14.3%, 26.4%, 34.5% 개선되었다.
https://doi.org/10.1109/access.2022.3188323
FLOPS
Inference
Computer science
Pruning
Convolutional neural network
Artificial intelligence
Pascal (unit)
Filter (signal processing)
Deep learning
Machine learning
5
Article
|
인용수 21
·
2022A Low-Cost Fully Integer-Based CNN Accelerator on FPGA for Real-Time Traffic Sign Recognition
Jaemyung Kim, Jin-Ku Kang, Yongwoo Kim
IF 3.9 (2022)
IEEE Access
교통 표지 인식(Traffic sign recognition, TSR) 기술은 차량이 카메라를 통해 도로 표지를 인식하고 이를 주행에 활용할 수 있게 한다. 교통 안전을 위해 TSR은 첨단 운전자 보조 시스템(Advanced driver assistance systems, ADAS)을 구성하는 핵심 기술 중 하나이며, 여러 연구가 수행되어 왔다. 합성곱 신경망(Convolutional neural networks, CNN)의 등장은 특히 ADAS 환경에서 자동차 분야에 새로운 가능성을 열어 주었다. 그러나 대부분의 CNN이 높은 연산 자원과 메모리 사용을 요구하므로, 자원 제약이 있는 ADAS에서 실시간 TSR 애플리케이션을 배치하는 것은 어렵다. 이 문제를 해결하기 위해 임베디드 플랫폼에서의 최적화를 고려한 일부 연구가 진행되어 왔으나, 기존 연구는 많은 하드웨어 자원을 사용하거나 연산 성능이 낮은 것으로 나타났다. 본 논문에서는 저비용의 CNN 기반 실시간 TSR 하드웨어 가속기를 제안한다. 첫째, 계산 복잡도를 줄이기 위해 새롭고 하드웨어 친화적인 양자화 방법을 확장한다. 이 양자화 방법은 CNN을 재구성하여 잔차 블록(residual blocks)의 skip connection 경로를 포함한 모든 연산이 정수 연산만을 사용하도록 하며, 양자화 선형 매핑(affine mapping) 과정을 시프트 연산으로 대체함으로써 계산 오버헤드를 감소시킨다. 둘째, 제안하는 하드웨어 가속기는 실시간 추론과 자원 소모 간의 균형을 맞추기 위해 두 가지 병렬화 전략을 적용한다. 또한 잔차 블록의 skip connection 경로를 처리하는 단순하면서도 효과적인 하드웨어 설계 방안을 제시한다. 이 설계 방안은 skip connection 경로의 데이터플로우를 최적화하고, 추가적인 내부 메모리 사용을 줄일 수 있다. 실험 결과, 재구성된 완전 정수 기반 CNN은 24M 정수 연산(operations, IOPs)만을 필요로 하며 모델 크기는 0.17MB이다. 기존 연구와 비교할 때, 제안된 CNN 모델 크기는 ×105만큼 감소하였고 연산 수는 ×58만큼 감소하였다. 또한 제안된 CNN은 TSR 정확도 99.07%를 달성할 수 있으며, 임베디드 플랫폼에서 구현된 CNN 기반 TSR 연구들 중 가장 높은 정확도이다. 제안된 하드웨어 가속기는 Xilinx ZC706 SoC에서 구현 시 960 MOPS의 연산 성능과 40 FPS의 프레임 레이트를 달성한다. 결과적으로 본 연구는 기존 연구에 비해 연산 성능과 프레임 레이트에서 각각 ×11.87 및 ×36.7만큼 향상시킨다.
https://doi.org/10.1109/access.2022.3197906
Computer science
Field-programmable gate array
Quantization (signal processing)
Traffic sign recognition
Convolutional neural network
Hardware acceleration
Computer engineering
Speedup
Computer hardware
Computation