AI Model Development Strategy in Kubeflow System : Focusing on the BentoML
Dong-Gil Kim, Tae-Yun Chung
Journal of Korean institute of intelligent systems
MLOps 접근 방식은 AI 모델을 효과적으로 관리하기 위해 필수적이며, BentoML은 모델의 상용화에서 발생할 수 있는 배포 문제를 해결하는데 유용하게 사용된다. BentoML의 Swagger UI를 활용한 API 명세 관리는 엔드포인트, 요청 및 응답 구조, 배포 상태 등을 명확하게 문서화하여 모델 운영의 안정성을 높이고 디버깅과 유지보수를 용이하게 한다. 모델은 Kubeflow에서 자동화된 파이프라인을 통해 실행되며, 모델의 전체 워크플로우를 관리하고 머신러닝과 딥러닝 프레임워크와 통합을 지원하여 작업의 일관성을 보장한다. 연구 결과, 모든 평가 항목에서 BentoML의 성능이 더 우수한 것으로 나타났으며, 이는 모델 배포 및 관리를 위한 BentoML의 통합 기능이 유사한 사례에서 최적의 성능을 위해 추가 구성이 필요한 경우 FastAPI와 같은 프레임워크에 비해 우수한 선택임을 보여준다.
Development of an Automated Object Detection Labeling System with Integrated Annotation Format Support Using Kubeflow
Dong-Gil Kim, Tae-Yun Chung
Journal of Korean institute of intelligent systems
객체 탐지 모델의 성능 향상에는 모델의 정확도뿐만 아니라 이미지에서 특정 객체를 식별하고 이를 정확하게 구분하는 어노테이션의 품질이 중요한 역할을 한다. 기존의 데이터 구축 방식은 수작업으로 이루어져 시간이 많이 소요되고 오류가 발생할 가능성이 높다. 특히, XML, TXT, JSON 등 다양한 형식의 어노테이션이 혼재되어 모델 학습에 어려움을 초래한다. 이에 본 논문에서는 어노테이션 형식을 XML로 통일하고, PyTorch, TensorFlow 등의 딥러닝 프레임워크를 통한 객체 탐지 모델의 사전 학습된 가중치를 활용하여 고품질 어노테이션 데이터를 자동으로 생성하는 프로세스를 설계하였다. 또한, Kubeflow를 기반으로 자동화된 파이프라인을 구성하여 어노테이션 성능을 실험한 결과, mAP 기준 0.58에서 0.83 사이의 높은 성능을 달성하였다. 본 논문은 객체 탐지 데이터셋 구축의 효율성과 정확성을 동시에 향상시키는데 기여할 것으로 기대된다.
AI Model Development Strategy in Kubeflow System : Focusing on the BentoML
Dong-Gil Kim, Tae-Yun Chung
Journal of Korean institute of intelligent systems
MLOps 접근 방식은 AI 모델을 효과적으로 관리하기 위해 필수적이며, BentoML은 모델의 상용화에서 발생할 수 있는 배포 문제를 해결하는데 유용하게 사용된다. BentoML의 Swagger UI를 활용한 API 명세 관리는 엔드포인트, 요청 및 응답 구조, 배포 상태 등을 명확하게 문서화하여 모델 운영의 안정성을 높이고 디버깅과 유지보수를 용이하게 한다. 모델은 Kubeflow에서 자동화된 파이프라인을 통해 실행되며, 모델의 전체 워크플로우를 관리하고 머신러닝과 딥러닝 프레임워크와 통합을 지원하여 작업의 일관성을 보장한다. 연구 결과, 모든 평가 항목에서 BentoML의 성능이 더 우수한 것으로 나타났으며, 이는 모델 배포 및 관리를 위한 BentoML의 통합 기능이 유사한 사례에서 최적의 성능을 위해 추가 구성이 필요한 경우 FastAPI와 같은 프레임워크에 비해 우수한 선택임을 보여준다.
Development of an Automated Object Detection Labeling System with Integrated Annotation Format Support Using Kubeflow
Dong-Gil Kim, Tae-Yun Chung
Journal of Korean institute of intelligent systems
객체 탐지 모델의 성능 향상에는 모델의 정확도뿐만 아니라 이미지에서 특정 객체를 식별하고 이를 정확하게 구분하는 어노테이션의 품질이 중요한 역할을 한다. 기존의 데이터 구축 방식은 수작업으로 이루어져 시간이 많이 소요되고 오류가 발생할 가능성이 높다. 특히, XML, TXT, JSON 등 다양한 형식의 어노테이션이 혼재되어 모델 학습에 어려움을 초래한다. 이에 본 논문에서는 어노테이션 형식을 XML로 통일하고, PyTorch, TensorFlow 등의 딥러닝 프레임워크를 통한 객체 탐지 모델의 사전 학습된 가중치를 활용하여 고품질 어노테이션 데이터를 자동으로 생성하는 프로세스를 설계하였다. 또한, Kubeflow를 기반으로 자동화된 파이프라인을 구성하여 어노테이션 성능을 실험한 결과, mAP 기준 0.58에서 0.83 사이의 높은 성능을 달성하였다. 본 논문은 객체 탐지 데이터셋 구축의 효율성과 정확성을 동시에 향상시키는데 기여할 것으로 기대된다.
Journal of Korean institute of intelligent systems
본 연구에서는 동일한 내용의 영상을 2D로 감상할 때와 3D로 감상할 때 함께 재생되는 음향이 어떻게 달라져야하는지를 확인하는 주관적 실험을 수행하고 그 결과를 고찰하였다. 먼저 음향 정보는 음원이 자체적으로 제공하는 정보인 음원의 거리와 방위각(즉 위치) 그리고 음원의 환경 혹은 장면(scene)이 제공하는 정보인 공간감으로 분리가 가능하므로 이에 맞게 동일 내용의 2D/3D 영상이 음원의 위치 선정에 미치는 영향 평가 실험과 동일한 내용의 2D/3D 장면이 음향 공간감에 주는 영향 평가 실험을 수행하였다. 첫 번째 실험 결과 3D 영상을 감상하는 경우 2D 영상을 감상할 때 보다 스크린을 기준으로 음원의 거리와 방위각을 확대하여 인지한다는 결과를 얻을 수 있었다. 이는 2D 영상용 소리보다 거리와 방위각이 큰 3D 영상용 소리를 만들어야 한다는 것을 의미한다. 또한 3D 영상용 소리는 3D 영상뿐만 아니라 2D 영상과도 잘 어울린다는 결과를 얻었다. 두 번째 실험 결과, 3D 영상을 감상하는 경우 2D 영상을 감상할 때 보다 잔향이 더 많은 소리를 선호함을 알 수 있었다. 이는 3D 영상을 감상할때 공간감이 강화되기 때문으로 해석된다. 본 연구의 결과는 기본적으로 2D 영상용 음향을 제작하던 음향엔지니어가 3D영상용 음향을 제작하는 데 활용할 수 있으며, 2D to 3D 음향을 자동으로 변형하는 연구의 기초가 될 것이다. 더 나아가서 본 연구의 결과를 기반으로 제한된 대역폭에서 2D 와 3D를 동시에 지원하는 방송 시스템을 설계하는데 적용해 본다면, 방송 데이터 규격은 스테레오 영상, 음원의 위치가 강조된 3D 음향과 공간감을 주는 잔향 정보로 구성하는 것이 적절하다고 할 수 있다. This paper presents subjective experimental results to understand how audio should be changed when a video clip is watched in 3D than 2D. This paper divided auditory perceptual information into two categories; distance and azimuth that a sound source contributes mostly, and spaciousness that scene or environment contribute mostly. According to the experiment for distance and azimuth, i.e. sound localization, we found that distance and azimuth of sound sources were magnified when heard with 3D than 2D video. This lead us to conclude 3D sound for localization should be designed to have more distance and azimuth than 2D sound. Also we found 3D sound are preferred to be played with not only 3D video clip but also 2D video clip. According to the experiment for spaciousness, we found people prefer sound with more reverberation when they watch 3D video clips than 2D video clips. This can be understood that 3D video provides more spacial information than 2D video. Those subjective experimental results can help audio engineer familiar with 2D audio to create 3D audio, and be fundamental information of future research to make 2D to 3D audio conversion system. Furthermore when designing 3D broadcasting system with limited bandwidth and with 2D TV supportive, we propose to consider transmitting stereoscopic video, audio with enhanced localization, and metadata for TV sets to generate reverberation for spaciousness.
Blind Measurement of Blocking Artifacts in Block-based DCT Image Coder
Tae-Yun Chung, Sung-Wook Park
Journal of Korean institute of intelligent systems
본 논문은 블록기반 DCT 부호화 영상의 화전 평가 몇 개선에 필수적인 블록화 외곡 정도를 측정하는 새로운 블라인드 측정 모델을 제안한다. 제안된 모델은 원영상을 필요로 하지 않으며 또한 인간시각 특성의 다채널 구조에 따른 주파수 민감도와 마스킹 현상을 반영하여 영상 부호화시 발생하는 블록화 외곡량을 정량적으로 검출, 측정하였으며 실험을 통해 제안된 모델의 타당성을 검증하였다. This paper proposes a new blind measurement model of blocking artifacts. This model plays an important role in the assessment and enhancement of image quality caused by block-based DCT coding system. The proposed model can measure blocking artifacts without reference to original images and consider the HVS based visual model such as frequency sensitivity and channel masking effect to detect and measure overall blocking artifacts quantitatively. The experimental results show that the proposed model is highly effective in measuring blocking artifacts.