RnDCircle Logo
심규석 연구실
서울대학교 전기·정보공학부 심규석 교수
차등 프라이버시
Local Differential Privacy
데이터베이스 카디널리티 추정
연구 영역
기본 정보
논문·특허
과제
구성원

심규석 연구실

서울대학교 전기·정보공학부 심규석 교수

심규석 연구실은 데이터베이스 질의 처리와 인공지능 학습 방법을 기반으로 안전한 데이터 분석과 텍스트 기반 정보추출을 수행합니다. 차등 프라이버시 관점에서 로컬 환경의 위치·시간 분포를 노이즈가 포함된 형태로 수집하고 분포 오차를 줄이기 위한 사후처리와 구조적 분할 전략을 개발합니다. 또한 근사 substring 질의의 카디널리티를 딥러닝 estimator로 추정하고, weak/sparse supervision을 활용해 NER, 문서 수준 관계추출, 추천 모델을 학습하는 방법을 연구합니다. 사전학습 언어 모델 기반 웹 테이블 질의응답 개발도 함께 수행합니다.

차등 프라이버시Local Differential Privacy데이터베이스 카디널리티 추정약지도 학습Named Entity Recognition
대표 연구 분야
연구 영역 전체보기
차등 프라이버시 기반 지오스페이셜·분포 데이터 수집/출판 연구 thumbnail
차등 프라이버시 기반 지오스페이셜·분포 데이터 수집/출판 연구
Differential Privacy for Geospatial and Distribution Data Collection/Publishing
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.
주요 논문
5
논문 전체보기
1
Book chapter
|
인용수 4
·
2023
THUNDER: Named Entity Recognition Using a Teacher-Student Model with Dual Classifiers for Strong and Weak Supervisions
Seongwoong Oh, Woohwan Jung, Kyuseok Shim
Frontiers in artificial intelligence and applications
강한 지도(supervision)와 약한 지도(supervision)는 상호 보완적인 특성을 지닌다. 그러나 개체명 인식(named entity recognition, NER)에서 두 가지 지도를 모두 활용하는 방법은 충분히 연구되지 않았다. 또한 기존 연구들은 불완전한 주석에만 초점을 두며, NER 모델 학습 과정에서 나타나는 부정확한 주석을 소홀히 한다. 약한 라벨을 효과적으로 활용하기 위해, 약한 라벨로부터 학습하는 보조 분류기(auxiliary classifier)를 도입한다. 나아가 불완전하고 부정확한 약한 라벨을 모두 처리하기 위해 교사-학생(teacher-student) 프레임워크를 채택한다. 먼저, 교사 모델을 강한 지도 및 약한 지도 데이터를 모두 사용하여 1차로 학습시키고, 다음으로 약한 라벨을 대체하기 위해 의사 라벨(pseudo labels)을 생성한다. 그 후, 학생 모델을 학습하여 주 분류기(main classifier)는 강한 라벨과 신뢰도 높은 의사 라벨로부터 학습하도록 하고, 보조 분류기는 신뢰도가 낮은 의사 라벨로부터 학습하도록 한다. 또한 모델 성능과 일반화 능력을 향상시키기 위해 ChatGPT를 통한 데이터 증강(data augmentation)을 도입하여 추가로 주석이 달린 문장을 생성한다. 다양한 약한 지도 조건에서의 실험 결과는, 제안한 방법이 기존 기술을 능가함을 보여준다.
https://doi.org/10.3233/faia230466
Classifier (UML)
Computer science
Artificial intelligence
Training set
Machine learning
Generalization
Natural language processing
Mathematics
2
Article
|
·
인용수 12
·
2022
Cardinality estimation of approximate substring queries using deep learning
Suyong Kwon, Woohwan Jung, Kyuseok Shim
IF 2.5 (2022)
Proceedings of the VLDB Endowment
근사 부분 문자열(approximate substring) 질의의 카디널리티(cardinality) 추정은 데이터베이스 시스템에서 중요한 문제이다. 기존의 접근은 텍스트 데이터로부터 요약(summary)을 구축하고, 일부 통계적 가정을 바탕으로 그 요약을 이용해 카디널리티를 추정한다. 딥러닝 모델은 복잡한 데이터 패턴을 효과적으로 학습할 수 있으므로, 데이터베이스 시스템에서의 질의 카디널리티 추정에 전통적 방법보다 우수한 성능을 보이며 성공적으로 적용되어 왔다. 그러나 아직 근사 부분 문자열 질의에는 적용되지 않았기 때문에, 우리는 이러한 질의의 카디널리티 추정을 위한 딥러닝 접근을 조사한다. 딥러닝 모델의 정확도는 학습 데이터 크기가 증가할수록 향상되는 경향이 있으나, 근사 부분 문자열 질의의 카디널리티 추정을 위해 대규모 학습 데이터를 생성하는 일은 계산적으로 비용이 많이 든다. 따라서 우리는 불필요한 계산을 피하고 공통 계산을 공유함으로써 효율적인 학습 데이터 생성 알고리즘을 개발한다. 또한 신속하게 정확한 딥러닝 기반 추정기를 얻기 위한 딥러닝 모델과 새로운 학습 방법을 제안한다. 광범위한 실험 결과, 제안한 학습 데이터 생성 알고리즘과 새로운 학습 방법을 포함한 딥러닝 모델이 우수함이 확인되었다.
https://doi.org/10.14778/3551793.3551859
Substring
Cardinality (data modeling)
Computer science
Deep learning
Artificial intelligence
Estimator
Computation
Machine learning
Algorithm
Theoretical computer science
3
Article
|
·
인용수 0
·
2022
Recommender System Exploiting Structure of Group, User, and Item via Contrastive Representation Learning
Jinwoo Kim, Hanjun Goo, Youngjun Ahn, Kyuseok Shim
KIISE Transactions on Computing Practices
그룹 추천 시스템은 복수의 유저로 이루어진 그룹에게 아이템을 추천하는 시스템이다. 기존의 그룹 추천 시스템은 그룹-아이템 상호작용이 부족한 상황에서도 정확한 추천을 하기 위해 그룹의 임베딩과 해당 그룹의 구성원의 임베딩 사이의 상호 정보량을 최대화하여 아이템을 추천한다. 그러나 그룹-아이템 상호작용과 유저-아이템 상호작용이 모두 부족한 상황에서는 추천 성능이 떨어진다는 단점이 있다. 이를 해결하기 위하여 그룹과 유저에 대한 대조적 표현 학습뿐만 아니라 그룹과 아이템에 대한 대조적 표현학습을 사용하는 연구가 진행되었다. 이 논문에서는 적대적 생성 신경망을 적용한 협업 필터링을 사용하여 유저-아이템 상호작용 데이터를 증강시키는 방법을 제시한다. 또한, 실험을 통하여 제안하는 방식이 그룹과 아이템, 유저와 아이템 간의 상호작용들이 부족한 상황에서도 추천 성능을 향상시킴을 확인한다.
https://doi.org/10.5626/ktcp.2022.28.11.567
Computer science
Recommender system
Natural language processing
Information retrieval
Representation (politics)
Group (periodic table)
Artificial intelligence
World Wide Web
Human–computer interaction
Chemistry
최신 정부 과제
34
과제 전체보기
1
2023년 5월-2026년 2월
|54,788,000
사전 학습된 언어 모델을 이용한 웹 테이블 질의응답 시스템 개발
본 연구에서는 세 가지 주제를 세부 연구 목표로 하고 최종적으로 웹 테이블을 이용한 질의응답 시스템의 품질을 향상하는 핵심 기술 개발을 목표로 한다. 연구 목표 1: 거대 언어 모델 기반 질문과 관련된 웹 테이블 실시간 검색 기술 연구연구 목표 2: 질문과 관련된 웹 테이블에서 정답 및 정답에 대한 설명 생성 기술 연구연구 목표 3: 웹 테이블 질의응답을 ...
웹 테이블
질의응답
인공지능
자연어 처리
2
2023년 5월-2026년 2월
|68,484,000
사전 학습된 언어 모델을 이용한 웹 테이블 질의응답 시스템 개발
본 연구에서는 세 가지 주제를 세부 연구 목표로 하고 최종적으로 웹 테이블을 이용한 질의응답 시스템의 품질을 향상하는 핵심 기술 개발을 목표로 한다. 연구 목표 1: 거대 언어 모델 기반 질문과 관련된 웹 테이블 실시간 검색 기술 연구연구 목표 2: 질문과 관련된 웹 테이블에서 정답 및 정답에 대한 설명 생성 기술 연구연구 목표 3: 웹 테이블 질의응답을 ...
웹 테이블
질의응답
인공지능
자연어 처리
3
주관|
2022년 3월-2024년 12월
|873,334,000
국가통계데이터에 적용 가능한 차등정보보호 개념을 도출하고 통계분석의 유용성을 보장해야 하는 문제 해결
■ 2차년도 개발 내용 및 범위 ㅇ 차등정보보호 보장하는 통계 분석 및 통계적 추론 기법 개발 (기초통계 10종, 기계학습 4종) - 차등정보보호를 보장하는 총계, 평균, 표준편차 기초통계 연구(6종) - 차등정보보호를 보장하는 분위수(Quantile) 기초통계 연구(4종) - 차등정보보호를 보장하는 복잡 기계학습 기법 연구(4종) - 실험적 결과와 실증 데이터 기반의 결과 차이 분석 ㅇ 1차년도&2차년도 개발 기술 최적화 - 통계데이터센터의 데이터를 기반으로 방법론의 Sensitivity 최적화 및 수정 - 차등정보보호 기초통계 및 기계학습 기법의 보안성 및 유효성 검증 - 최종 방법론 확립 ㅇ 1차년도 & 2차년도 개발 기술 수요기관 검증 - 개발 기술 적용 및 검증 - 실험적 결과와 실증 데이터 기반의 결과 차이 검증 및 분석 ㅇ 통계데이터센터 활용 활성화를 위한 비식별화 시스템 분석 - 현 비식별화 시스템의 비식별화 로직 분석 ㅇ 결과 보고서 및 가이드라인 작성 - 개발 기술 검증 결과 보고서 작성 - 개발 기술 적용 가이드라인 작성 - 차등정보보호를 일반 기관이 활용할 수 있도록 가이드라인 작성
개인정보
보안
비식별화
차등정보보호
통계분석
최신 특허
특허 전체보기
상태출원연도과제명출원번호상세정보
공개2024개체명 인식 모델 구축 장치 및 방법과 개체명 인식 모델을 이용한 개체명 인식 장치1020240066261
등록2022위치 데이터에 대한 빈도 분포 추정 방법 및 서버1020220039007
등록2021문자열 검색 방법 및 장치1020210169376
전체 특허

개체명 인식 모델 구축 장치 및 방법과 개체명 인식 모델을 이용한 개체명 인식 장치

상태
공개
출원연도
2024
출원번호
1020240066261

위치 데이터에 대한 빈도 분포 추정 방법 및 서버

상태
등록
출원연도
2022
출원번호
1020220039007

문자열 검색 방법 및 장치

상태
등록
출원연도
2021
출원번호
1020210169376