DNA 서열 파싱을 위한 토크나이저 및 이의 동작 방법
TOKENIZER FOR DNA SEQUENCE PARSING AND THE OPERATING METHOD THEREOF
특허 요약
본 발명은 A, T, G, C의 염기(nucleotide)들 중에서 앵커 염기 또는 앵커 염기서열을 설정하여 생성된 토큰을 이용하여 학습을 수행하는 DNA 서열 파싱을 위한 토크나이저 및 이의 동작 방법에 관한 것으로서, 4개의 염기(nucleotide)들 중 적어도 하나를 앵커 염기로 설정하는 단계, k번째 앵커 염기와 k+1번째 앵커 염기 사이에 포함된 나머지 염기들 분포에 기초하여 k번째 토큰을 생성하는 단계 및 상기 생성된 토큰을 이용하여 학습을 수행하는 단계를 포함한다.
청구항
번호청구항
6

제5항에 있어서,상기 조합된 염기서열은A, T, G, C의 염기들 중 중복된 염기서열을 포함하는 것을 특징으로 하는, 토크나이저의 동작 방법.

1

DNA 서열 파싱을 위한 토크나이저의 동작 방법에 있어서, 4개의 염기(nucleotide)들 중 적어도 하나를 앵커 염기로 설정하는 단계;k번째 앵커 염기와 k+1번째 앵커 염기 사이에 포함된 나머지 염기들 분포에 기초하여 k번째 토큰을 생성하는 단계; 및상기 생성된 토큰을 이용하여 학습을 수행하는 단계를 포함하는 토크나이저의 동작 방법.

2

제1항에 있어서,상기 토큰을 생성하는 단계는염기 서열 상에서 상기 앵커 염기가 있는 k번째 지점을 확인하고, k번째 지점과 k+1번째 지점 사이의 나머지 염기들의 개수 혹은 비율을 검출하는, 토크나이저의 동작 방법.

3

제2항에 있어서,상기 토큰을 생성하는 단계는A, T, G, C의 염기들 순서에 기초하여 k번째 지점과 k+1번째 지점 사이에서 상기 앵커 염기를 제외한 나머지 염기들의 개수를 차례대로 입력한 3차원 벡터를 k번째 토큰으로 생성하는, 토크나이저의 동작 방법.

4

DNA 서열 파싱을 위한 토크나이저의 동작 방법에 있어서, 4개의 염기(nucleotide)들 중 n개의 염기서열을 조합하여 적어도 하나를 앵커 염기서열로 설정하는 단계;k번째 앵커 염기서열과 k+1번째 앵커 염기서열 사이에 포함된 4-n개의 나머지 염기들 분포에 기초하여 k번째 토큰을 생성하는 단계; 및상기 생성된 토큰을 이용하여 학습을 수행하는 단계를 포함하는 토크나이저의 동작 방법.

5

제4항에 있어서,상기 앵커 염기서열로 설정하는 단계는A, T, G, C의 염기들 중에서 n개로 염기서열을 조합하고, 조합된 염기서열들 중에서 적어도 하나의 염기서열을 상기 앵커 염기서열로 설정하는, 토크나이저의 동작 방법.

7

제5항에 있어서,상기 토큰을 생성하는 단계는A, T, G, C의 염기들 순서에 기초하여 k번째 앵커 염기서열과 k+1번째 앵커 염기서열 사이에서 상기 앵커 염기서열을 제외한 나머지 염기들의 개수를 차례대로 입력한 3차원 벡터를 k번째 토큰으로 생성하는, 토크나이저의 동작 방법.

8

DNA 서열 파싱을 위한 토크나이저의 동작 방법에 있어서, 4개의 염기(nucleotide)들 중 적어도 하나를 제1 앵커 염기로 설정하는 단계;k번째 제1 앵커 염기와 k+1번째 제1 앵커 염기 사이에 포함된 나머지 염기들 중 적어도 하나를 제2 앵커 염기로 설정하는 단계;k번째 제1 앵커 염기와 k+1번째 제1 앵커 염기 사이에 위치한 i번째 제2 앵커 염기와 i+1번째 제2 앵커 염기 사이에 포함된 나머지 염기들 분포에 기초하여 토큰을 생성하는 단계; 및 상기 생성된 토큰을 이용하여 학습을 수행하는 단계를 포함하는 토크나이저의 동작 방법.

9

제8항에 있어서,상기 제2 앵커 염기로 설정하는 단계는k번째 제1 앵커 염기와 k+1번째 제1 앵커 염기 사이에 포함된 적어도 두 개 이상의 염기들 중에서 하나를 상기 제2 앵커 염기로 설정하는, 토크나이저의 동작 방법.

10

제9항에 있어서,상기 토큰을 생성하는 단계는A, T, G, C의 염기들 순서에 기초하여 k번째 제1 앵커 염기와 i번째 제2 앵커 염기 사이에 포함된 나머지 염기들의 개수를 차례대로 입력한 3차원 벡터를 k번째 토큰으로 생성하고, i번째 제2 앵커 염기와 i+1번째 제2 앵커 염기 사이에 포함된 나머지 염기들의 개수를 차례대로 입력한 3차원 벡터를 k+1번째 토큰으로 생성하며, i+1번째 제2 앵커 염기와 k+1번째 제1 앵커 염기 사이에 포함된 나머지 염기들의 개수를 차례대로 입력한 3차원 벡터를 k+1번째 토큰으로 생성하는, 토크나이저의 동작 방법.