스마트 디바이스 사용 과정에서 시각 장애인의 객체 탐지를 돕기 위한 태스크 기반의 음향 가이드 방법 및 장치
METHOD AND DEVICE FOR Task-oriented Sounding Guide with Object Detection to Guide Visually Impaired People During Smart Device Usage
특허 요약
스마트 디바이스 사용 과정에서 시각 장애인의 객체 탐지를 돕기 위한 태스크 기반의 음향 가이드 방법 및 장치가 개시된다. 음향 가이드 방법은, 사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 단계; 카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 단계; 및 상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 단계를 포함할 수 있다.
청구항
번호청구항
1

컴퓨터 시스템에서 수행되는 음향 가이드 방법에 있어서,상기 컴퓨터 시스템이 포함하는 적어도 하나의 프로세서의 의해, 사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 단계;상기 적어도 하나의 프로세서의 의해, 카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 단계; 및상기 적어도 하나의 프로세서의 의해, 상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 단계를 포함하고,상기 음향 가이드를 제공하는 단계는,카메라 영상에 상기 타겟 버튼이 포착되는지 여부를 확인하는 단계;상기 카메라 영상에 상기 타겟 버튼이 포착되면 상기 카메라 영상에서 상기 손끝의 위치를 찾는 단계;상기 카메라 영상에서 상기 타겟 버튼과 상기 손끝의 위치를 비교하여 비교 결과에 따라 상기 손끝의 이동 방향에 대한 가이드 피드백을 제공하는 단계; 및상기 손끝의 위치가 상기 타겟 버튼의 위치에 도달함에 따른 결과 피드백을 제공하는 단계를 포함하는 음향 가이드 방법.

2

제1항에 있어서,상기 지정하는 단계는,상기 사용자 음성을 텍스트로 변환하는 단계; 및상기 텍스트에 대응되는 키워드의 인터페이스 객체를 상기 타겟 버튼으로 지정하는 단계를 포함하는 음향 가이드 방법.

3

제1항에 있어서,상기 감지하는 단계는,손끝 이미지와 인터페이스 객체 이미지로 구성된 데이터셋으로 학습된 CNN(convolution neural network) 기반의 객체 인식 모델을 통해 상기 타겟 버튼과 상기 손끝의 위치를 추적하는 단계를 포함하는 음향 가이드 방법.

4

제1항에 있어서,상기 감지하는 단계는,CNN 기반의 SSD(single-shot multibox detector)를 이용하여 상기 타겟 버튼과 상기 손끝의 위치에 따라 상기 사용자가 상기 타겟 버튼을 터치하는데 필요한 시간을 계산하는 단계를 포함하는 음향 가이드 방법.

5

제1항에 있어서,상기 음향 가이드를 제공하는 단계는,카메라 영상에서 감지된 상기 타겟 버튼과 상기 손끝의 위치를 나타내는 경계 상자(bounding box) 좌표를 서로 비교하여 상기 타겟 버튼에 대한 상기 손끝의 이동 방향을 안내하는 단계를 포함하는 음향 가이드 방법.

6

삭제

7

제1항에 있어서,상기 음향 가이드를 제공하는 단계는,상기 카메라 영상에 상기 타겟 버튼이 포착되지 않으면 해당 감지 결과에 대한 음성 알림을 제공하는 단계를 더 포함하는 음향 가이드 방법.

8

음향 가이드 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장된 컴퓨터 프로그램에 있어서,상기 음향 가이드 방법은,사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 단계;카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 단계; 및상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 단계를 포함하고,상기 음향 가이드를 제공하는 단계는,카메라 영상에 상기 타겟 버튼이 포착되는지 여부를 확인하는 단계;상기 카메라 영상에 상기 타겟 버튼이 포착되면 상기 카메라 영상에서 상기 손끝의 위치를 찾는 단계;상기 카메라 영상에서 상기 타겟 버튼과 상기 손끝의 위치를 비교하여 비교 결과에 따라 상기 손끝의 이동 방향에 대한 가이드 피드백을 제공하는 단계; 및상기 손끝의 위치가 상기 타겟 버튼의 위치에 도달함에 따른 결과 피드백을 제공하는 단계를 포함하는, 컴퓨터 판독가능한 기록 매체에 저장된 컴퓨터 프로그램.

9

컴퓨터로 구현되는 음향 가이드 시스템에 있어서,메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,상기 적어도 하나의 프로세서는,사용자 음성을 기초로 사용자가 활성화하고자 하는 기능의 인터페이스 객체를 타겟 버튼으로 지정하는 과정;카메라를 통한 실시간 영상에서 상기 타겟 버튼과 상기 사용자의 손끝을 감지하는 과정; 및상기 타겟 버튼과 상기 손끝에 대한 감지 결과에 따라 음향 가이드를 제공하는 과정을 처리하고,상기 적어도 하나의 프로세서는,카메라 영상에 상기 타겟 버튼이 포착되는지 여부를 확인하고,상기 카메라 영상에 상기 타겟 버튼이 포착되지 않으면 해당 감지 결과에 대한 음성 알림을 제공하고,상기 카메라 영상에 상기 타겟 버튼이 포착되면 상기 카메라 영상에서 상기 손끝의 위치를 찾고,상기 카메라 영상에서 상기 타겟 버튼과 상기 손끝의 위치를 비교하여 비교 결과에 따라 상기 손끝의 이동 방향에 대한 가이드 피드백을 제공하고,상기 손끝의 위치가 상기 타겟 버튼의 위치에 도달함에 따른 결과 피드백을 제공하는 것을 특징으로 하는 음향 가이드 시스템.

10

제9항에 있어서,상기 적어도 하나의 프로세서는,상기 사용자 음성을 텍스트로 변환하고,상기 텍스트에 대응되는 키워드의 인터페이스 객체를 상기 타겟 버튼으로 지정하는 것을 특징으로 하는 음향 가이드 시스템.

11

제9항에 있어서,상기 적어도 하나의 프로세서는,손끝 이미지와 인터페이스 객체 이미지로 구성된 데이터셋으로 학습된 CNN(convolution neural network) 기반의 객체 인식 모델을 통해 상기 타겟 버튼과 상기 손끝의 위치를 추적하는 것을 특징으로 하는 음향 가이드 시스템.

12

제9항에 있어서,상기 적어도 하나의 프로세서는,CNN 기반의 SSD(single-shot multibox detector)를 이용하여 상기 타겟 버튼과 상기 손끝의 위치에 따라 상기 사용자가 상기 타겟 버튼을 터치하는데 필요한 시간을 계산하는 것을 특징으로 하는 음향 가이드 시스템.

13

제9항에 있어서,상기 적어도 하나의 프로세서는,카메라 영상에서 감지된 상기 타겟 버튼과 상기 손끝의 위치를 나타내는 경계 상자(bounding box) 좌표를 서로 비교하여 상기 타겟 버튼에 대한 상기 손끝의 이동 방향을 안내하는 것을 특징으로 하는 음향 가이드 시스템.

14

삭제