논문 | 박준형 교수 연구실 | 한국외국어대학교 Language & AI융합학부

박준형 교수 연구실

홈

기본 정보

연구 분야

논문

구성원

논문

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

34총합

5개년 연도별 피인용 수

97총합

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

preprint

인용수 0

2025

A fine-grained look at causal effects in causal spaces

Jun-Hyung Park, Yuqing Zhou

arXiv (Cornell University)

인과효과(causal effect)라는 개념은 많은 과학 분야 전반에 걸쳐 근본적이다. 전통적으로 양적 연구자들은 변수 수준에서 인과효과를 연구해 왔는데, 예컨대 특정 약물의 용량(W)이 환자의 혈압(Y)에 인과적으로 어떤 영향을 미치는지와 같은 문제를 다루는 방식이다. 그러나 많은 현대 데이터 영역에서는 이미지의 픽셀이나 언어 모델의 토큰(token)처럼 원시 변수(raw variables)가 의미론적 구조를 갖추지 못하므로, 의미 있는 인과 질문을 공식화하기 어렵다. 본 논문에서는 확률론에서 독립(independence)과 같은 핵심 개념이 사건(event)과 시그마-대수(sigma-algebras) 수준에서 먼저 주어지고 그 후에 확률변수(random variables)가 등장한다는 점에서 영감을 받아, 사건 수준에서 인과효과를 연구함으로써 보다 세밀한 관점을 제시한다. 인과 공간(causal spaces)의 계측론적(measure-theoretic) 틀 안에서, 최근에 도입된 인과성의 공리화(axiomatisation)에 기반하여, 우리는 먼저 인과효과의 존재 여부를 결정하는 몇 가지 이원적(binary) 정의를 소개하고, 개입(intervention) 측정에 따라 인과효과를 (비)독립성(in)dependence과 연결하는 몇 가지 성질을 증명한다. 나아가 사건에 대한 인과효과의 강도와 성격을 포착하는 계량 척도들을 제공하고, 그러한 척도들이 치료효과(treatment effect)에 대한 통상적 측정값을 특수한 경우로서 복원할 수 있음을 보인다.

http://arxiv.org/abs/2512.11919

Causal model

Causal structure

Causality (physics)

Perspective (graphical)

Independence (probability theory)

Conditional independence

Causal analysis

Causal inference

article

인용수 1

2024

Coconut: Contextualized Commonsense Unified Transformers for Graph-Based Commonsense Augmentation of Language Models

Jun-Hyung Park, Mingyu Lee, Junho Kim, SangKeun Lee

본 논문에서는 대규모 언어 모델을 기반으로 구조화된 상식 지식을 문맥화(contextualization)하는 과정을 효과적으로 안내하기 위한 COCONUT을 제안한다. COCONUT은 문맥화 지시(prompting) 방식을 활용하여 대규모 언어 모델로부터 고품질의 문맥화 예시를 수집한다. 이후 이러한 예시는 소규모 언어 모델로 증류(distill)되어 문맥화 능력을 향상시킨다. 광범위한 평가 결과, CO-CONUT은 다양한 벤치마크, 모델 및 환경 전반에서 상식 추론 성능을 현저히 향상시키며, 문맥화된 상식 지식을 생성하는 데 있어 유연성과 보편성을 보인다. 특히 COCONUT은 평균 5.8%로 기존의 최신 기술(state-of-the-art) 기법을 일관되게 능가한다. Q. 사람들이 만년필(fountain pen)에서 새로 나온 잉크를 흡수하기 위해 사용하는 것은 무엇인가?

http://dx.doi.org/10.18653/v1/2024.findings-acl.346

Commonsense reasoning

Commonsense knowledge

Computer science

Transformer

Graph

Artificial intelligence

Natural language processing

Theoretical computer science

Engineering

Knowledge-based systems

article

인용수 2

2024

Moleco: Molecular Contrastive Learning with Chemical Language Models for Molecular Property Prediction

Jun-Hyung Park, Hyuntae Park, Yeachan Kim, Woosang Lim, SangKeun Lee

사전 학습된 화학 언어 모델(Chemical Language Models, CLMs)은 SMILES와 같은 문자열 기반 분자 기술자(descriptor)를 활용하여 범용 표현을 학습함으로써 분자 특성 예측 분야에서 뛰어난 성능을 보인다. 그러나 이러한 문자열 기반 기술자는 분자 특성 예측과 밀접하게 연관된 제한된 구조 정보를 암묵적으로 포함한다. 본 연구에서는 CLM 내에서 분자 구조에 대한 이해를 향상시키기 위한 새로운 대조 학습 프레임워크인 Moleco를 제안한다. 서로 다른 분자 간의 지문(fingerprint) 벡터 유사성을 기반으로, CLM이 대조적 방식으로 구조적으로 유사한 분자와 비유사한 분자를 구별하도록 학습한다. 실험 결과는 Moleco가 CLM의 분자 특성 예측 성능을 유의미하게 향상시키며, 최신(state-of-the-art) 모델을 능가함을 보여준다. 또한 다양한 Moleco 변형에 대한 심층 분석을 통해 지문 벡터가 분자의 구조 정보에 대한 CLM의 이해를 개선하는 데 매우 효과적인 특성임을 검증한다 1.

https://doi.org/10.18653/v1/2024.emnlp-industry.30

Computer science

Natural language processing

Property (philosophy)

Artificial intelligence

Philosophy

article

인용수 2

2024

MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction

Jun-Hyung Park, Yeachan Kim, Mingyu Lee, Hyuntae Park, SangKeun Lee

화학 표현 학습은 약물 및 소재 설계와 같은 분야에서 지도 학습 데이터의 가용성이 제한적이라는 점 때문에 점차 더 많은 관심을 받고 있다. 이러한 관심은 분자 언어 표현 학습, 즉 SMILES 서열—분자의 텍스트적 기술자—에 대해 트랜스포머를 사전 학습하는 과정으로 특히 확장된다. 분자 특성 예측에서의 성과에도 불구하고, 현재의 관행은 흔히 조기 수렴으로 인해 과적합과 제한된 확장성 문제를 야기한다. 본 논문에서는 이러한 문제를 해결하기 위해 MolTRES라는 새로운 화학 언어 표현 학습 프레임워크를 제안한다. MolTRES는 생성기-판별기 학습을 통합하여, 구조적 이해를 필요로 하는 보다 도전적인 예시들로부터 모델이 학습할 수 있도록 한다. 또한 외부 물질 임베딩을 통합함으로써 과학 문헌으로부터의 지식을 전이하여 분자 표현을 풍부하게 한다. 실험 결과는 우리의 모델이 널리 사용되는 분자 특성 예측 과제들에서 기존의 최첨단 모델들을 능가함을 보여준다.github.

https://doi.org/10.18653/v1/2024.emnlp-main.788

Computer science

Property (philosophy)

Natural language processing

Representation (politics)

Artificial intelligence

Machine learning

article

인용수 21

2022

Quantized Sparse Training: A Unified Trainable Framework for Joint Pruning and Quantization in DNNs

Jun-Hyung Park, Kang-Min Kim, SangKeun Lee

IF 2 (2022)

ACM Transactions on Embedded Computing Systems

심층 신경망은 일반적으로 방대한 파라미터와 연산을 필요로 한다. 가지치기(pruning)와 양자화(quantization) 기법은 심층 모델의 복잡도를 줄이기 위해 널리 사용되어 왔다. 두 기법은 함께 적용될 때 유의미하게 더 높은 압축률을 구현할 수 있다. 그러나 별도의 최적화 과정과 하이퍼파라미터 선택에 따른 어려움은 두 기법을 동시에 적용하는 데 제약이 된다. 본 연구에서는 가지치기와 양자화를 단일한 학습 과정에서 함께 수행하는 새로운 압축 프레임워크인 ‘양자화 희소 학습(quantized sparse training)’을 제안한다. 우리는 직통 추정기(straight-through estimator)에 기반한 그래디언트 기반 최적화 과정에 가지치기와 양자화를 통합한다. 양자화 희소 학습을 통해, 처음부터(스크래치) 네트워크를 동시에 학습하고 가지치기 및 양자화를 수행할 수 있다. 실험 결과는 제안 방법론이 모델 크기와 정확도 모두에서 최근의 최첨단(state-of-the-art) 기준 모델에 비해 우수함을 검증하였다. 구체적으로, 양자화 희소 학습은 정확도 저하 없이 VGG16의 경우 135 KB의 모델 크기를 달성하며, 이는 최신 가지치기 및 양자화 접근법에서 가능했던 모델 크기의 40%에 해당한다.

https://doi.org/10.1145/3524066

Computer science

Quantization (signal processing)

Hyperparameter

Pruning

Estimator

Deep neural networks

Artificial neural network

Artificial intelligence

Machine learning

Algorithm

전체 논문

preprint

인용수 0

2025

A fine-grained look at causal effects in causal spaces

Jun-Hyung Park, Yuqing Zhou

arXiv (Cornell University)

http://arxiv.org/abs/2512.11919

Causal model

Causal structure

Causality (physics)

Perspective (graphical)

Independence (probability theory)

Conditional independence

Causal analysis

Causal inference

article

인용수 1

2024

Coconut: Contextualized Commonsense Unified Transformers for Graph-Based Commonsense Augmentation of Language Models

Jun-Hyung Park, Mingyu Lee, Junho Kim, SangKeun Lee

http://dx.doi.org/10.18653/v1/2024.findings-acl.346

Commonsense reasoning

Commonsense knowledge

Computer science

Transformer

Graph

Artificial intelligence

Natural language processing

Theoretical computer science

Engineering

Knowledge-based systems

article

인용수 2

2024

Moleco: Molecular Contrastive Learning with Chemical Language Models for Molecular Property Prediction

Jun-Hyung Park, Hyuntae Park, Yeachan Kim, Woosang Lim, SangKeun Lee

https://doi.org/10.18653/v1/2024.emnlp-industry.30

Computer science

Natural language processing

Property (philosophy)

Artificial intelligence

Philosophy

article

인용수 2

2024

MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction

Jun-Hyung Park, Yeachan Kim, Mingyu Lee, Hyuntae Park, SangKeun Lee

https://doi.org/10.18653/v1/2024.emnlp-main.788

Computer science

Property (philosophy)

Natural language processing

Representation (politics)

Artificial intelligence

Machine learning

article

인용수 21

2022

Quantized Sparse Training: A Unified Trainable Framework for Joint Pruning and Quantization in DNNs

Jun-Hyung Park, Kang-Min Kim, SangKeun Lee

IF 2 (2022)

ACM Transactions on Embedded Computing Systems

https://doi.org/10.1145/3524066

Computer science

Quantization (signal processing)

Hyperparameter

Pruning

Estimator

Deep neural networks

Artificial neural network

Artificial intelligence

Machine learning

Algorithm

article

인용수 0

2025

Continual debiasing: A bias mitigation framework for natural language understanding systems

Mingyu Lee, Junho Kim, Jun-Hyung Park, SangKeun Lee

IF 7.5 (2025)

Expert Systems with Applications

https://doi.org/10.1016/j.eswa.2025.126593

Debiasing

Computer science

Natural (archaeology)

Cognitive science

Psychology

article

인용수 0

2025

Incorporating Domain Knowledge into Materials Tokenization

Yerim Oh, Jun-Hyung Park, Junho Kim, Sungho Kim, SangKeun Lee

언어 모델은 재료과학에서 점차 더 널리 활용되고 있으나, 일반적인 모델은 원래 자연어 처리에 사용되던 빈도 중심의 토큰화 방법에 주로 의존한다. 그러나 이러한 방법은 종종 과도한 분절(fragmentation)과 의미 손실을 야기하여, 재료 개념의 구조적 및 의미적 무결성을 유지하지 못한다. 이 문제를 해결하기 위해 우리는 재료 지식을 토큰화에 통합하는 새로운 토큰화 접근법 MATTER를 제안한다. 재료 지식 기반에서 학습된 MatDetector와, 토큰 병합(token merging) 과정에서 재료 개념을 우선하도록 하는 재랭킹(re-ranking) 방법에 기반하여 MATTER는 식별된 재료 개념의 구조적 무결성을 유지하고 토큰화 중 분절을 방지함으로써, 그 의미가 온전히 유지되도록 한다. 실험 결과는 MATTER가 기존 토큰화 방법보다 우수하며, 생성 및 분류 과제에서 각각 평균 성능 향상 4% 및 2%를 달성함을 보여준다. 이러한 결과는 과학 텍스트 처리에서 토큰화 전략에 있어 도메인 지식의 중요성을 강조한다. 1

https://doi.org/10.18653/v1/2025.acl-long.474

Lexical analysis

Computer science

Domain (mathematical analysis)

Natural language processing

Artificial intelligence

Mathematics

article

인용수 2

2025

AI Veterinary Assistance: Enhancing Clinical Decision-Making in Animal Healthcare

Youn-Gyu Jin, Guixin Wu, Jeong Yeon Seo, Seong-Jin Park, Sung-Ho Hur, Dinara Aliyeva, Jun-Hyung Park, Kang-Min Kim

IF 3.6 (2025)

IEEE Access

반려동물을 기르는 가정의 수가 증가함에 따라 수의학적 의료 서비스에 대한 수요도 함께 증가하고 있다. 또한 반려동물이 노령화됨에 따라 만성질환의 유병률이 증가하여, 반려동물 보호자들은 장기적인 건강관리와 관련된 더 많은 도움을 찾게 된다. 그러나 수의사의 부족과 상담 과정의 점증하는 복잡성은 수의사에게 더 큰 업무 부담을 초래하여, 임상적 의사결정의 효율성을 저해할 가능성이 있다. 이러한 문제를 해결하기 위해 본 연구는 대규모 언어 모델을 활용한 AI 수의 보조(AI Veterinary Assistance, AVA)라는 프레임워크를 제안한다. AVA는 상담 기록으로부터 증상을 자동으로 추출하고, 수의사가 인증한 질병-증상 데이터베이스를 사용하여 가장 가능성이 높은 질병을 예측하며, 향후 상담을 위한 질문을 권고한다. AVA는 질병 예측 정확도를 Top-3, Top-5, Top-10에서 각각 91.4%, 93.4%, 95.9%로 달성하였고, 수의사 인증 질병-증상 데이터베이스로부터 구축된 상담 기록 데이터셋에서 증상 추출 정확도는 79.9%를 나타냈다. 더 나아가 실제 환경 데이터셋에서 AVA는 질병 예측 정확도를 Top-3, Top-5, Top-10에서 각각 38.6%, 43.6%, 51.5%로 달성하였다. 두 데이터셋 모두에서 AVA는 기준선 방법보다 우수한 성능을 보였으며, 임상적 의사결정을 지원하는 데 있어 그 효과를 입증하였다. 이러한 결과는 AVA가 수의사의 업무 부담을 줄이는 동시에 상담 과정의 효율성과 신뢰성을 향상시키는 데 기여할 수 있음을 시사한다.

https://doi.org/10.1109/access.2025.3587787

Health care

Animal health

Clinical decision making

Computer science

Veterinary medicine

Medicine

Family medicine

Political science

preprint

인용수 0

2025

Incorporating Domain Knowledge into Materials Tokenization

Yerim Oh, Jun-Hyung Park, Junho Kim, Sungho Kim, SangKeun Lee

ArXiv.org

언어 모델이 재료과학에서 점점 더 널리 활용되고 있지만, 일반적인 모델은 원래 자연어 처리 분야에서 개발된 빈도 중심의 토큰화 방법에 주로 의존한다. 그러나 이러한 방법은 종종 과도한 단편화를 유발하고 의미를 상실하게 하여, 재료 개념의 구조적·의미적 온전성을 유지하지 못한다. 이 문제를 해결하기 위해, 우리는 재료 지식을 토큰화에 통합하는 새로운 토큰화 접근법인 MATTER를 제안한다. 재료 지식 기반으로 학습된 MatDetector와, 토큰 병합 과정에서 재료 개념을 우선시하도록 설계된 재순위화 방법에 기반하여, MATTER는 식별된 재료 개념의 구조적 온전성을 유지하고 토큰화 중 단편화를 방지함으로써 해당 개념의 의미가 그대로 보존되도록 한다. 실험 결과는 MATTER가 기존 토큰화 방법보다 우수하며, 생성 및 분류 과제에서 각각 평균 성능 향상

4%

와

2%

를 달성함을 보여준다. 이러한 결과는 과학 텍스트 처리에서 토큰화 전략에 대한 도메인 지식의 중요성을 강조한다. 우리의 코드는 https://github.com/yerimoh/MATTER 에서 제공된다.

http://arxiv.org/abs/2506.11115

Lexical analysis

Knowledge base

Domain (mathematical analysis)

Natural language

Subject-matter expert

Semantics (computer science)

Domain knowledge

Security token

book-chapter

인용수 0

2025

Handling Korean Out-of-Vocabulary Words with Phoneme Representation Learning

N D Kim, Eojin Jeon, Jun-Hyung Park, SangKeun Lee

Lecture notes in computer science

https://doi.org/10.1007/978-981-96-8180-8_38

Computer science

Vocabulary

Natural language processing

Artificial intelligence

Representation (politics)

Speech recognition

Linguistics

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

preprint

인용수 0

2025

A fine-grained look at causal effects in causal spaces

Jun-Hyung Park, Yuqing Zhou

arXiv (Cornell University)

http://arxiv.org/abs/2512.11919

Causal model

Causal structure

Causality (physics)

Perspective (graphical)

Independence (probability theory)

Conditional independence

Causal analysis

Causal inference

article

인용수 1

2024

Coconut: Contextualized Commonsense Unified Transformers for Graph-Based Commonsense Augmentation of Language Models

Jun-Hyung Park, Mingyu Lee, Junho Kim, SangKeun Lee

http://dx.doi.org/10.18653/v1/2024.findings-acl.346

Commonsense reasoning

Commonsense knowledge

Computer science

Transformer

Graph

Artificial intelligence

Natural language processing

Theoretical computer science

Engineering

Knowledge-based systems

article

인용수 2

2024

Moleco: Molecular Contrastive Learning with Chemical Language Models for Molecular Property Prediction

Jun-Hyung Park, Hyuntae Park, Yeachan Kim, Woosang Lim, SangKeun Lee

https://doi.org/10.18653/v1/2024.emnlp-industry.30

Computer science

Natural language processing

Property (philosophy)

Artificial intelligence

Philosophy

article

인용수 2

2024

MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction

Jun-Hyung Park, Yeachan Kim, Mingyu Lee, Hyuntae Park, SangKeun Lee

https://doi.org/10.18653/v1/2024.emnlp-main.788

Computer science

Property (philosophy)

Natural language processing

Representation (politics)

Artificial intelligence

Machine learning

article

인용수 21

2022

Quantized Sparse Training: A Unified Trainable Framework for Joint Pruning and Quantization in DNNs

Jun-Hyung Park, Kang-Min Kim, SangKeun Lee

IF 2 (2022)

ACM Transactions on Embedded Computing Systems

https://doi.org/10.1145/3524066

Computer science

Quantization (signal processing)

Hyperparameter

Pruning

Estimator

Deep neural networks

Artificial neural network

Artificial intelligence

Machine learning

Algorithm

전체 논문

preprint

인용수 0

2025

A fine-grained look at causal effects in causal spaces

Jun-Hyung Park, Yuqing Zhou

arXiv (Cornell University)

http://arxiv.org/abs/2512.11919

Causal model

Causal structure

Causality (physics)

Perspective (graphical)

Independence (probability theory)

Conditional independence

Causal analysis

Causal inference

article

인용수 1

2024

Coconut: Contextualized Commonsense Unified Transformers for Graph-Based Commonsense Augmentation of Language Models

Jun-Hyung Park, Mingyu Lee, Junho Kim, SangKeun Lee

http://dx.doi.org/10.18653/v1/2024.findings-acl.346

Commonsense reasoning

Commonsense knowledge

Computer science

Transformer

Graph

Artificial intelligence

Natural language processing

Theoretical computer science

Engineering

Knowledge-based systems

article

인용수 2

2024

Moleco: Molecular Contrastive Learning with Chemical Language Models for Molecular Property Prediction

Jun-Hyung Park, Hyuntae Park, Yeachan Kim, Woosang Lim, SangKeun Lee

https://doi.org/10.18653/v1/2024.emnlp-industry.30

Computer science

Natural language processing

Property (philosophy)

Artificial intelligence

Philosophy

article

인용수 2

2024

MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction

Jun-Hyung Park, Yeachan Kim, Mingyu Lee, Hyuntae Park, SangKeun Lee

https://doi.org/10.18653/v1/2024.emnlp-main.788

Computer science

Property (philosophy)

Natural language processing

Representation (politics)

Artificial intelligence

Machine learning

article

인용수 21

2022

Quantized Sparse Training: A Unified Trainable Framework for Joint Pruning and Quantization in DNNs

Jun-Hyung Park, Kang-Min Kim, SangKeun Lee

IF 2 (2022)

ACM Transactions on Embedded Computing Systems

https://doi.org/10.1145/3524066

Computer science

Quantization (signal processing)

Hyperparameter

Pruning

Estimator

Deep neural networks

Artificial neural network

Artificial intelligence

Machine learning

Algorithm

article

인용수 0

2025

Continual debiasing: A bias mitigation framework for natural language understanding systems

Mingyu Lee, Junho Kim, Jun-Hyung Park, SangKeun Lee

IF 7.5 (2025)

Expert Systems with Applications

https://doi.org/10.1016/j.eswa.2025.126593

Debiasing

Computer science

Natural (archaeology)

Cognitive science

Psychology

article

인용수 0

2025

Incorporating Domain Knowledge into Materials Tokenization

Yerim Oh, Jun-Hyung Park, Junho Kim, Sungho Kim, SangKeun Lee

https://doi.org/10.18653/v1/2025.acl-long.474

Lexical analysis

Computer science

Domain (mathematical analysis)

Natural language processing

Artificial intelligence

Mathematics

article

인용수 2

2025

AI Veterinary Assistance: Enhancing Clinical Decision-Making in Animal Healthcare

Youn-Gyu Jin, Guixin Wu, Jeong Yeon Seo, Seong-Jin Park, Sung-Ho Hur, Dinara Aliyeva, Jun-Hyung Park, Kang-Min Kim

IF 3.6 (2025)

IEEE Access

https://doi.org/10.1109/access.2025.3587787

Health care

Animal health

Clinical decision making

Computer science

Veterinary medicine

Medicine

Family medicine

Political science

preprint

인용수 0

2025

Incorporating Domain Knowledge into Materials Tokenization

Yerim Oh, Jun-Hyung Park, Junho Kim, Sungho Kim, SangKeun Lee

ArXiv.org

4%

와

2%

http://arxiv.org/abs/2506.11115

Lexical analysis

Knowledge base

Domain (mathematical analysis)

Natural language

Subject-matter expert

Semantics (computer science)

Domain knowledge

Security token

book-chapter

인용수 0

2025

Handling Korean Out-of-Vocabulary Words with Phoneme Representation Learning

N D Kim, Eojin Jeon, Jun-Hyung Park, SangKeun Lee

Lecture notes in computer science

https://doi.org/10.1007/978-981-96-8180-8_38

Computer science

Vocabulary

Natural language processing

Artificial intelligence

Representation (politics)

Speech recognition

Linguistics