주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
article
|
인용수 2
·
2024PAPipe: A Pipeline for Comprehensive Population Genetic Analysis
Nayoung Park, Hyeonji Kim, Jeongmin Oh, Jinseok Kim, Charyeong Heo, Jaebum Kim
IF 5.3 (2024)
Molecular Biology and Evolution
차세대 염기서열분석기술(Next-Generation Sequencing, NGS)의 발전은 집단유전학적 변이(population genetic variant) 데이터의 이용 가능성을 크게 증가시켰으며, 이에 따라 집단의 구조와 진화에 대한 이해를 높이기 위한 다양한 집단 분석 도구들이 개발되었다. 현재 집단유전학적 변이 데이터를 분석하는 데 사용되는 도구들은 일반적으로 서로 다른 실행 환경, 파라미터, 그리고 입력 데이터의 형식을 요구하며, 이는 생물정보학에 익숙하지 않은 일반 연구자들의 이러한 도구에 대한 광범위한 사용을 저해하는 장벽으로 작용할 수 있다. 이러한 문제를 해결하기 위하여, 우리는 인구 NGS 데이터를 이용해 널리 사용되는 9가지 집단유전학 분석을 수행하는 자동화되고 포괄적인 파이프라인인 PAPipe를 개발하였다. PAPipe는 서열 읽기 트리밍 및 매핑, 유전적 변이 호출(genetic variant calling), 데이터 필터링, 포맷 변환과 같은 여러 단계를, 주성분 분석(principal component analysis), 계통발생학적 분석(phylogenetic analysis), 집단 트리 분석(population tree analysis), 집단 구조 분석(population structure analysis), 연관불평형 붕괴(linkage disequilibrium decay) 분석, 선택적 스윕(selective sweep) 분석, 집단 혼합(population admixture) 분석, 순차적 마코비안 공절(coalescent) 분석(sequentially Markovian coalescent analysis), 고정지수(fixation index) 분석과 같은 9가지 집단유전학 분석과 함께 매끄럽게 상호 연결하고 직렬화한다. 또한 PAPipe는 파라미터를 설정하고 분석 결과를 직관적인 방식으로 탐색할 수 있도록 사용하기 쉬운 웹 인터페이스를 제공한다. PAPipe는 사용자 편의성과 데이터 활용성을 향상시키는 데 도움이 될 수 있는 통찰을 제공하는 광범위한 결과를 생성하는 데 사용할 수 있다. PAPipe는 https://github.com/jkimlab/PAPipe에서 무료로 제공된다.
https://doi.org/10.1093/molbev/msae040
Biology
Pipeline (software)
Evolutionary biology
Population
Computational biology
Genetics
Demography
Engineering
2
article
|
인용수 6
·
2024A chromosome-level genome assembly of the Korean minipig (Sus scrofa)
Suyeon Wy, Daehong Kwon, Woncheoul Park, Han‐Ha Chai, In‐Cheol Cho, Jaebum Kim
IF 6.9 (2024)
Scientific Data
최근 염기서열 분석 및 유전체 조립 기술의 발전은 다양한 종과 품종에서 고품질 유전체 조립체를 빠르게 생성하는 데 기여해 왔다. 생의학 연구에서 동물 모델로서 미니피그(minipig)의 중요성에도 불구하고, 미니피그의 고품질 유전체 조립체 구축은 다른 돼지 품종에 비해 여전히 뒤처져 있다. 이 문제를 해결하기 위해 우리는 서로 다른 여러 유형의 시퀀싱 읽기와 기준(reference) 유전체를 활용하여 한국 미니피그(Korean minipig, KMP)의 고품질 염색체 수준 유전체 조립체를 구축하였다. KMP 조립체는 총 길이 2.52 Gb와 N50 137 Mb를 갖는 19개의 염색체 수준 서열을 포함하였다. 돼지 기준 유전체(Sscrofa11.1)와의 비교 분석 결과, KMP 조립체는 유사한 연속성과 완전성을 보였다. 또한 유전체 주석 분석을 통해 22,666개의 단백질 코딩 유전자를 확인하였고, 반복 서열(repetitive elements)은 유전체의 40.10%를 차지하는 것으로 나타났다. KMP 조립체 및 유전체 주석은 미니피그와 다른 돼지 품종에 대한 향후 다양한 연구에 기여할 수 있는 유용한 자원을 제공한다.
https://doi.org/10.1038/s41597-024-03680-8
Genome
Biology
Sequence assembly
Reference genome
Genetics
Genome project
Chromosome
DNA sequencing
Computational biology
Gene
3
article
|
인용수 8
·
2023A chromosome-level genome assembly of the Korean crossbred pig Nanchukmacdon (Sus scrofa)
Daehong Kwon, Nayoung Park, Suyeon Wy, Daehwan Lee, Han‐Ha Chai, In‐Cheol Cho, Jongin Lee, Kisang Kwon, Heesun Kim, Youngbeen Moon, Juyeon Kim, Woncheoul Park, Jaebum Kim
IF 5.8 (2023)
Scientific Data
양질의 방대한 게놈 조립체가 축적됨에 따라, 기준(reference) 유도 게놈 조립은 고품질 조립체를 재구성하는 데 유용한 접근법이 될 수 있다. 본 연구에서는 단기 및 장기 판독값을 사용한 기준 유도 조립 접근법으로 한국 재래 교잡종 돼지인 Nanchukmacdon(이하 NCMD)의 염색체 수준 게놈 조립체를 제시한다(이하 NCMD 조립체). NCMD 조립체는 총 크기 2.38 Gbp의 20개의 염색체 수준 스캐폴드를 포함하며(N50: 138.77 Mbp), BUSCO 점수는 돼지 기준 조립체와 비교 가능한 93.1%이다. 또한 총 20,588개의 단백질 코딩 유전자, 8,651개의 비암호화 유전자, 반복 서열 요소 996.14 Mbp가 주석으로 달려 있다. NCMD 조립체는 돼지 기준 조립체의 다수의 공백(gap)을 메우는 데에도 활용되었다. 본 NCMD 조립체 및 주석은 돼지 및 관련 종의 게놈 분석을 위한 기반 자원을 제공한다.
http://dx.doi.org/10.1038/s41597-023-02661-7
Biology
Crossbreed
Genetics
Genome
Chromosome
Gene
4
article
|
인용수 1
·
2022Reference-based read clustering improves the de novo genome assembly of microbial strains
Mikang Sim, Jongin Lee, Daehong Kwon, Daehwan Lee, Nayoung Park, Suyeon Wy, Younhee Ko, Jaebum Kim
IF 6 (2022)
Computational and Structural Biotechnology Journal
다중의 참조 유전체를 사용하여 서열 읽기 간 근접성을 정확히 추정함으로써 미생물 유전체 어셈블리를 수행한다. RBRC의 성능은 시뮬레이션 기반 평가를 통해 어셈블리 연속성과 오어셈블리(misassemblies) 수 측면에서 확인되었으며, 추가적인 시퀀싱 데이터 없이 어셈블리의 품질을 향상시켜 기존의 진균 및 세균 유전체에 성공적으로 적용되었다. RBRC는 (i) 관련 균주의 유전체 어셈블리가 이용 가능한 경우 미생물 균주의 고품질 유전체 어셈블리를 생성하는 데, 그리고 (ii) 장독서(long reads)와 같은 추가 시퀀싱 데이터의 생성이 어려운 경우 기존 미생물 유전체 어셈블리를 업그레이드하는 데 사용할 수 있는 매우 유용한 읽기 클러스터링(read-clustering) 알고리즘이다.
https://doi.org/10.1016/j.csbj.2022.12.032
Genome
Sequence assembly
Cluster analysis
Computational biology
DNA sequencing
Bacterial genome size
Biology
Hybrid genome assembly
Reference genome
Computer science
5
article
|
인용수 6
·
2022Generation and application of pseudo–long reads for metagenome assembly
Mikang Sim, Jongin Lee, Suyeon Wy, Nayoung Park, Daehwan Lee, Daehong Kwon, Jaebum Kim
IF 9.2 (2022)
GigaScience
배경: 고처리량 시퀀싱 데이터를 이용한 메타유전체 어셈블리는 배양 없이 환경 시료로부터 미생물 게놈을 구축할 수 있는 강력한 방법이다. 그러나 메타유전체 어셈블리, 특히 짧은 리드만 이용할 때는 여러 미생물의 혼합 게놈이 메타유전체를 구성하므로 복잡하고 도전적인 작업이다. 장독자(롱 리드) 시퀀싱 기술이 개발되어 메타유전체 어셈블리에 사용되기 시작했으나, 긴 리드를 생성하는 데 드는 비용이 짧은 리드보다 더 높기 때문에 많은 메타유전체 연구는 여전히 짧은 리드에 기반하여 수행되고 있다. 결과: 본 연구에서는 PLR-GEN이라는 새로운 방법을 제시한다. PLR-GEN은 주어진 기준(레퍼런스) 게놈 서열을 바탕으로, 동일 또는 서로 다른 종에 속한 개체 게놈에 존재하는 소규모 서열 변이를 고려하여 메타유전체 짧은 리드로부터 의사-롱 리드(pseudo-long reads)를 생성한다. Human Microbiome Project의 모의 커뮤니티(mock community) 데이터셋에 적용한 결과, PLR-GEN은 101 bp의 짧은 리드를 길이 33 Kbp의 N50과 0.4% 오류율을 갖는 의사-롱 리드로 현저하게 확장하였다. PLR-GEN이 생성한 이러한 의사-롱 리드를 사용하면, 서열 수, 어셈블리 연속성(contiguity), 종 및 유전자 예측 측면에서 메타유전체 어셈블리가 뚜렷하게 개선되었다. 결론: PLR-GEN은 추가적인 시퀀싱 비용을 지출하지 않고 인공적인 롱 리드 서열을 생성하는 데 활용될 수 있으며, 따라서 메타유전체를 사용하는 다양한 연구를 지원한다.
https://doi.org/10.1093/gigascience/giac044
Metagenomics
Computational biology
Computer science
Data science
Biology
Genetics
Gene