심규석 교수 연구실 | 서울대학교 전기·정보공학부

심규석 연구실

서울대학교 전기·정보공학부 심규석 교수

차등 프라이버시

Local Differential Privacy

데이터베이스 카디널리티 추정

|심규석 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

홈

심규석 연구실

서울대학교 전기·정보공학부 심규석 교수

심규석 연구실은 데이터베이스 질의 처리와 인공지능 학습 방법을 기반으로 안전한 데이터 분석과 텍스트 기반 정보추출을 수행합니다. 차등 프라이버시 관점에서 로컬 환경의 위치·시간 분포를 노이즈가 포함된 형태로 수집하고 분포 오차를 줄이기 위한 사후처리와 구조적 분할 전략을 개발합니다. 또한 근사 substring 질의의 카디널리티를 딥러닝 estimator로 추정하고, weak/sparse supervision을 활용해 NER, 문서 수준 관계추출, 추천 모델을 학습하는 방법을 연구합니다. 사전학습 언어 모델 기반 웹 테이블 질의응답 개발도 함께 수행합니다.

차등 프라이버시Local Differential Privacy데이터베이스 카디널리티 추정약지도 학습Named Entity Recognition

대표 연구 분야

연구 영역 전체보기

차등 프라이버시 기반 지오스페이셜·분포 데이터 수집/출판 연구

Differential Privacy for Geospatial and Distribution Data Collection/Publishing

연구 분야 상세보기

차등 프라이버시 기반 지오스페이셜·분포 데이터 수집/출판 연구

Differential Privacy for Geospatial and Distribution Data Collection/Publishing

연구 분야 상세보기

데이터베이스 질의 처리 및 카디널리티 추정 연구

Database Query Processing and Cardinality Estimation

연구 분야 상세보기

약·희소 지도 학습 기반 정보추출 및 추천 연구

Information Extraction and Recommendation with Weak/Sparse Supervision

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

주요 논문

5

논문 전체보기

1

Book chapter

|

인용수 4

·

2023

THUNDER: Named Entity Recognition Using a Teacher-Student Model with Dual Classifiers for Strong and Weak Supervisions

Seongwoong Oh, Woohwan Jung, Kyuseok Shim

Frontiers in artificial intelligence and applications

강한 지도(supervision)와 약한 지도(supervision)는 상호 보완적인 특성을 지닌다. 그러나 개체명 인식(named entity recognition, NER)에서 두 가지 지도를 모두 활용하는 방법은 충분히 연구되지 않았다. 또한 기존 연구들은 불완전한 주석에만 초점을 두며, NER 모델 학습 과정에서 나타나는 부정확한 주석을 소홀히 한다. 약한 라벨을 효과적으로 활용하기 위해, 약한 라벨로부터 학습하는 보조 분류기(auxiliary classifier)를 도입한다. 나아가 불완전하고 부정확한 약한 라벨을 모두 처리하기 위해 교사-학생(teacher-student) 프레임워크를 채택한다. 먼저, 교사 모델을 강한 지도 및 약한 지도 데이터를 모두 사용하여 1차로 학습시키고, 다음으로 약한 라벨을 대체하기 위해 의사 라벨(pseudo labels)을 생성한다. 그 후, 학생 모델을 학습하여 주 분류기(main classifier)는 강한 라벨과 신뢰도 높은 의사 라벨로부터 학습하도록 하고, 보조 분류기는 신뢰도가 낮은 의사 라벨로부터 학습하도록 한다. 또한 모델 성능과 일반화 능력을 향상시키기 위해 ChatGPT를 통한 데이터 증강(data augmentation)을 도입하여 추가로 주석이 달린 문장을 생성한다. 다양한 약한 지도 조건에서의 실험 결과는, 제안한 방법이 기존 기술을 능가함을 보여준다.

https://doi.org/10.3233/faia230466

Classifier (UML)

Computer science

Artificial intelligence

Training set

Machine learning

Generalization

Natural language processing

Mathematics

2

Article

|

·

인용수 12

·

2022

Cardinality estimation of approximate substring queries using deep learning

Suyong Kwon, Woohwan Jung, Kyuseok Shim

IF 2.5 (2022)

Proceedings of the VLDB Endowment

근사 부분 문자열(approximate substring) 질의의 카디널리티(cardinality) 추정은 데이터베이스 시스템에서 중요한 문제이다. 기존의 접근은 텍스트 데이터로부터 요약(summary)을 구축하고, 일부 통계적 가정을 바탕으로 그 요약을 이용해 카디널리티를 추정한다. 딥러닝 모델은 복잡한 데이터 패턴을 효과적으로 학습할 수 있으므로, 데이터베이스 시스템에서의 질의 카디널리티 추정에 전통적 방법보다 우수한 성능을 보이며 성공적으로 적용되어 왔다. 그러나 아직 근사 부분 문자열 질의에는 적용되지 않았기 때문에, 우리는 이러한 질의의 카디널리티 추정을 위한 딥러닝 접근을 조사한다. 딥러닝 모델의 정확도는 학습 데이터 크기가 증가할수록 향상되는 경향이 있으나, 근사 부분 문자열 질의의 카디널리티 추정을 위해 대규모 학습 데이터를 생성하는 일은 계산적으로 비용이 많이 든다. 따라서 우리는 불필요한 계산을 피하고 공통 계산을 공유함으로써 효율적인 학습 데이터 생성 알고리즘을 개발한다. 또한 신속하게 정확한 딥러닝 기반 추정기를 얻기 위한 딥러닝 모델과 새로운 학습 방법을 제안한다. 광범위한 실험 결과, 제안한 학습 데이터 생성 알고리즘과 새로운 학습 방법을 포함한 딥러닝 모델이 우수함이 확인되었다.

https://doi.org/10.14778/3551793.3551859

Substring

Cardinality (data modeling)

Computer science

Deep learning

Artificial intelligence

Estimator

Computation

Machine learning

Algorithm

Theoretical computer science

3

Article

|

·

인용수 0

·

2022

Recommender System Exploiting Structure of Group, User, and Item via Contrastive Representation Learning

Jinwoo Kim, Hanjun Goo, Youngjun Ahn, Kyuseok Shim

KIISE Transactions on Computing Practices

그룹 추천 시스템은 복수의 유저로 이루어진 그룹에게 아이템을 추천하는 시스템이다. 기존의 그룹 추천 시스템은 그룹-아이템 상호작용이 부족한 상황에서도 정확한 추천을 하기 위해 그룹의 임베딩과 해당 그룹의 구성원의 임베딩 사이의 상호 정보량을 최대화하여 아이템을 추천한다. 그러나 그룹-아이템 상호작용과 유저-아이템 상호작용이 모두 부족한 상황에서는 추천 성능이 떨어진다는 단점이 있다. 이를 해결하기 위하여 그룹과 유저에 대한 대조적 표현 학습뿐만 아니라 그룹과 아이템에 대한 대조적 표현학습을 사용하는 연구가 진행되었다. 이 논문에서는 적대적 생성 신경망을 적용한 협업 필터링을 사용하여 유저-아이템 상호작용 데이터를 증강시키는 방법을 제시한다. 또한, 실험을 통하여 제안하는 방식이 그룹과 아이템, 유저와 아이템 간의 상호작용들이 부족한 상황에서도 추천 성능을 향상시킴을 확인한다.

https://doi.org/10.5626/ktcp.2022.28.11.567

Computer science

Recommender system

Natural language processing

Information retrieval

Representation (politics)

Group (periodic table)

Artificial intelligence

World Wide Web

Human–computer interaction

Chemistry

최신 정부 과제

34

과제 전체보기

1

2023년 5월-2026년 2월

|54,788,000원

사전 학습된 언어 모델을 이용한 웹 테이블 질의응답 시스템 개발

본 연구에서는 세 가지 주제를 세부 연구 목표로 하고 최종적으로 웹 테이블을 이용한 질의응답 시스템의 품질을 향상하는 핵심 기술 개발을 목표로 한다. 연구 목표 1: 거대 언어 모델 기반 질문과 관련된 웹 테이블 실시간 검색 기술 연구연구 목표 2: 질문과 관련된 웹 테이블에서 정답 및 정답에 대한 설명 생성 기술 연구연구 목표 3: 웹 테이블 질의응답을 ...

웹 테이블

질의응답

인공지능

자연어 처리

2

2023년 5월-2026년 2월

|68,484,000원

사전 학습된 언어 모델을 이용한 웹 테이블 질의응답 시스템 개발

본 연구에서는 세 가지 주제를 세부 연구 목표로 하고 최종적으로 웹 테이블을 이용한 질의응답 시스템의 품질을 향상하는 핵심 기술 개발을 목표로 한다. 연구 목표 1: 거대 언어 모델 기반 질문과 관련된 웹 테이블 실시간 검색 기술 연구연구 목표 2: 질문과 관련된 웹 테이블에서 정답 및 정답에 대한 설명 생성 기술 연구연구 목표 3: 웹 테이블 질의응답을 ...

웹 테이블

질의응답

인공지능

자연어 처리

3

주관|

2022년 3월-2024년 12월

|873,334,000원

국가통계데이터에 적용 가능한 차등정보보호 개념을 도출하고 통계분석의 유용성을 보장해야 하는 문제 해결

■ 2차년도 개발 내용 및 범위 ㅇ 차등정보보호 보장하는 통계 분석 및 통계적 추론 기법 개발 (기초통계 10종, 기계학습 4종) - 차등정보보호를 보장하는 총계, 평균, 표준편차 기초통계 연구(6종) - 차등정보보호를 보장하는 분위수(Quantile) 기초통계 연구(4종) - 차등정보보호를 보장하는 복잡 기계학습 기법 연구(4종) - 실험적 결과와 실증 데이터 기반의 결과 차이 분석 ㅇ 1차년도&2차년도 개발 기술 최적화 - 통계데이터센터의 데이터를 기반으로 방법론의 Sensitivity 최적화 및 수정 - 차등정보보호 기초통계 및 기계학습 기법의 보안성 및 유효성 검증 - 최종 방법론 확립 ㅇ 1차년도 & 2차년도 개발 기술 수요기관 검증 - 개발 기술 적용 및 검증 - 실험적 결과와 실증 데이터 기반의 결과 차이 검증 및 분석 ㅇ 통계데이터센터 활용 활성화를 위한 비식별화 시스템 분석 - 현 비식별화 시스템의 비식별화 로직 분석 ㅇ 결과 보고서 및 가이드라인 작성 - 개발 기술 검증 결과 보고서 작성 - 개발 기술 적용 가이드라인 작성 - 차등정보보호를 일반 기관이 활용할 수 있도록 가이드라인 작성

개인정보

보안

비식별화

차등정보보호

통계분석

최신 특허

특허 전체보기

상태	출원연도	과제명	출원번호
공개	2024	개체명 인식 모델 구축 장치 및 방법과 개체명 인식 모델을 이용한 개체명 인식 장치	1020240066261
등록	2022	위치 데이터에 대한 빈도 분포 추정 방법 및 서버	1020220039007
등록	2021	문자열 검색 방법 및 장치	1020210169376

전체 특허

개체명 인식 모델 구축 장치 및 방법과 개체명 인식 모델을 이용한 개체명 인식 장치

상태

공개

출원연도

2024

출원번호

1020240066261

상세 정보 바로가기

위치 데이터에 대한 빈도 분포 추정 방법 및 서버

상태

등록

출원연도

2022

출원번호

1020220039007

상세 정보 바로가기

문자열 검색 방법 및 장치

상태

등록

출원연도

2021

출원번호

1020210169376

상세 정보 바로가기