주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Book chapter
|
인용수 4
·
2023THUNDER: Named Entity Recognition Using a Teacher-Student Model with Dual Classifiers for Strong and Weak Supervisions
Seongwoong Oh, Woohwan Jung, Kyuseok Shim
Frontiers in artificial intelligence and applications
강한 지도(supervision)와 약한 지도(supervision)는 상호 보완적인 특성을 지닌다. 그러나 개체명 인식(named entity recognition, NER)에서 두 가지 지도를 모두 활용하는 방법은 충분히 연구되지 않았다. 또한 기존 연구들은 불완전한 주석에만 초점을 두며, NER 모델 학습 과정에서 나타나는 부정확한 주석을 소홀히 한다. 약한 라벨을 효과적으로 활용하기 위해, 약한 라벨로부터 학습하는 보조 분류기(auxiliary classifier)를 도입한다. 나아가 불완전하고 부정확한 약한 라벨을 모두 처리하기 위해 교사-학생(teacher-student) 프레임워크를 채택한다. 먼저, 교사 모델을 강한 지도 및 약한 지도 데이터를 모두 사용하여 1차로 학습시키고, 다음으로 약한 라벨을 대체하기 위해 의사 라벨(pseudo labels)을 생성한다. 그 후, 학생 모델을 학습하여 주 분류기(main classifier)는 강한 라벨과 신뢰도 높은 의사 라벨로부터 학습하도록 하고, 보조 분류기는 신뢰도가 낮은 의사 라벨로부터 학습하도록 한다. 또한 모델 성능과 일반화 능력을 향상시키기 위해 ChatGPT를 통한 데이터 증강(data augmentation)을 도입하여 추가로 주석이 달린 문장을 생성한다. 다양한 약한 지도 조건에서의 실험 결과는, 제안한 방법이 기존 기술을 능가함을 보여준다.
https://doi.org/10.3233/faia230466
Classifier (UML)
Computer science
Artificial intelligence
Training set
Machine learning
Generalization
Natural language processing
Mathematics
2
Article
|
·
인용수 12
·
2022Cardinality estimation of approximate substring queries using deep learning
Suyong Kwon, Woohwan Jung, Kyuseok Shim
IF 2.5 (2022)
Proceedings of the VLDB Endowment
근사 부분 문자열(approximate substring) 질의의 카디널리티(cardinality) 추정은 데이터베이스 시스템에서 중요한 문제이다. 기존의 접근은 텍스트 데이터로부터 요약(summary)을 구축하고, 일부 통계적 가정을 바탕으로 그 요약을 이용해 카디널리티를 추정한다. 딥러닝 모델은 복잡한 데이터 패턴을 효과적으로 학습할 수 있으므로, 데이터베이스 시스템에서의 질의 카디널리티 추정에 전통적 방법보다 우수한 성능을 보이며 성공적으로 적용되어 왔다. 그러나 아직 근사 부분 문자열 질의에는 적용되지 않았기 때문에, 우리는 이러한 질의의 카디널리티 추정을 위한 딥러닝 접근을 조사한다. 딥러닝 모델의 정확도는 학습 데이터 크기가 증가할수록 향상되는 경향이 있으나, 근사 부분 문자열 질의의 카디널리티 추정을 위해 대규모 학습 데이터를 생성하는 일은 계산적으로 비용이 많이 든다. 따라서 우리는 불필요한 계산을 피하고 공통 계산을 공유함으로써 효율적인 학습 데이터 생성 알고리즘을 개발한다. 또한 신속하게 정확한 딥러닝 기반 추정기를 얻기 위한 딥러닝 모델과 새로운 학습 방법을 제안한다. 광범위한 실험 결과, 제안한 학습 데이터 생성 알고리즘과 새로운 학습 방법을 포함한 딥러닝 모델이 우수함이 확인되었다.
https://doi.org/10.14778/3551793.3551859
Substring
Cardinality (data modeling)
Computer science
Deep learning
Artificial intelligence
Estimator
Computation
Machine learning
Algorithm
Theoretical computer science
3
Article
|
·
인용수 0
·
2022Recommender System Exploiting Structure of Group, User, and Item via Contrastive Representation Learning
Jinwoo Kim, Hanjun Goo, Youngjun Ahn, Kyuseok Shim
KIISE Transactions on Computing Practices
그룹 추천 시스템은 복수의 유저로 이루어진 그룹에게 아이템을 추천하는 시스템이다. 기존의 그룹 추천 시스템은 그룹-아이템 상호작용이 부족한 상황에서도 정확한 추천을 하기 위해 그룹의 임베딩과 해당 그룹의 구성원의 임베딩 사이의 상호 정보량을 최대화하여 아이템을 추천한다. 그러나 그룹-아이템 상호작용과 유저-아이템 상호작용이 모두 부족한 상황에서는 추천 성능이 떨어진다는 단점이 있다. 이를 해결하기 위하여 그룹과 유저에 대한 대조적 표현 학습뿐만 아니라 그룹과 아이템에 대한 대조적 표현학습을 사용하는 연구가 진행되었다. 이 논문에서는 적대적 생성 신경망을 적용한 협업 필터링을 사용하여 유저-아이템 상호작용 데이터를 증강시키는 방법을 제시한다. 또한, 실험을 통하여 제안하는 방식이 그룹과 아이템, 유저와 아이템 간의 상호작용들이 부족한 상황에서도 추천 성능을 향상시킴을 확인한다.
https://doi.org/10.5626/ktcp.2022.28.11.567
Computer science
Recommender system
Natural language processing
Information retrieval
Representation (politics)
Group (periodic table)
Artificial intelligence
World Wide Web
Human–computer interaction
Chemistry
4
Article
|
·
인용수 20
·
2022Collecting Geospatial Data Under Local Differential Privacy With Improving Frequency Estimation
Daeyoung Hong, Woohwan Jung, Kyuseok Shim
IF 8.9 (2022)
IEEE Transactions on Knowledge and Data Engineering
공간지리 데이터는 개인화된 서비스에 많은 이점을 제공한다. 그러나 공간지리 데이터에는 개인의 활동에 관한 민감한 정보가 포함되어 있으므로, 원시 데이터를 수집하는 과정에서 수집자의 개인정보가 유출될 잠재적 위험이 있다. 최근에는 수집자를 신뢰하지 않고도 사용자의 프라이버시를 보호하는 지역 차등 프라이버시(local differential privacy, LDP)가 다수의 실제 응용에서 프라이버시를 보존하기 위해 채택되고 있다. 본 논문에서는 LDP 하에서 개별 사용자들의 위치를 수집하는 문제를 연구하고, 프라이버시 예산 및 데이터 도메인에 따라 교란된 위치의 기대 오차를 최소화하도록 설계된 교란 메커니즘을 제안한다. 교란된 위치의 빈도 분포는 불가피하게 큰 오차를 가지게 된다. 이 문제를 해결하기 위해, 수집된 데이터의 원래 빈도 분포를 볼록 최적화를 이용해 추정하는 사후처리 알고리즘 또한 제안한다. 다양한 실제 데이터셋에 대한 실험을 통해, 제안한 알고리즘들의 효과성을 입증한다.
https://doi.org/10.1109/tkde.2022.3181049
Differential privacy
Geospatial analysis
Computer science
Raw data
Data mining
Information privacy
Computer security
Remote sensing
5
Article
|
·
인용수 17
·
2021Collecting Geospatial Data with Local Differential Privacy for Personalized Services
Daeyoung Hong, Woohwan Jung, Kyuseok Shim
공간지리 데이터는 개인화 서비스를 위한 여러 이점을 제공한다. 그러나 공간지리 데이터에는 개인의 활동에 관한 민감한 정보가 포함되어 있으므로, 원시 데이터를 수집하는 과정에서는 수집자가 개인 정보를 유출할 잠재적 위험이 있다. 최근에는 수집자를 신뢰하지 않으면서도 사용자의 프라이버시를 보호하는 지역 차등 프라이버시(local differential privacy, LDP)가 많은 실제 응용에서 프라이버시 보존을 위해 채택되고 있다. 다만 기존의 대부분 LDP 알고리즘은 수집된 데이터로부터 평균(mean)이나 히스토그램(histogram)과 같은 집계된 값의 획득에 초점을 맞추고 있다. 본 논문에서는 LDP 하에서 개별 사용자의 위치를 수집하는 문제를 조사하고, 프라이버시 예산과 도메인 크기에 따라 각 교란된 위치의 오차를 줄이도록 신중하게 설계한 교란 메커니즘을 제안한다. 또한 다양한 실제 데이터셋에 대한 실험을 통해 제안한 알고리즘의 유효성을 보인다.
https://doi.org/10.1109/icde51399.2021.00230
Differential privacy
Geospatial analysis
Computer science
Raw data
Histogram
Focus (optics)
Data mining
Information privacy
Computer security
Data science