설명가능 클러스터링과 효율화된 앙상블 머신러닝

Explainable Clustering and Efficient Ensemble Machine Learning

연구 내용

토크나이저 선택과 설명가능 클러스터링을 포함해 효율적인 앙상블 예측 성능을 개선하는 연구

김원준 연구실은 예측 성능과 계산 효율을 동시에 다루는 앙상블 학습 프레임을 개발합니다. 데이터가 이질적일 때 k-means 기반 군집화로 구간별 모델을 구성하고, penalized 방법으로 random forest의 비효율적 트리를 줄여 테스트 단계 계산 부담을 낮추는 접근을 수행합니다. 또한 deep forest 계열에서 shrinkage 기법으로 트리 수를 조절해 학습·추론 효율을 개선하는 모델을 제안합니다. 텍스트 분석에서는 Mecab-Ko와 SentencePiece 토크나이저 성능을 비교하고, 고객 리뷰 감정 반응을 설명가능 클러스터링 알고리즘으로 범주화하여 해석 가능성을 확보합니다.

관련 프로젝트

0건

연구 흐름

초기에는 데이터 군집 구조를 고려한 clustered random forest 기반 앙상블 예측 프레임을 통해 정확도와 계산 시간을 함께 개선하는 방향을 설정했습니다. 이후 설명가능성 요구가 있는 텍스트 도메인으로 확장하면서 토크나이저 선택이 감정 분류 성능에 미치는 영향을 비교하고, 리뷰 데이터의 정서 범주를 설명가능 클러스터링으로 도출하는 연구를 수행했습니다. 이후에는 deep forest 계열에서 shrinkage 기법을 적용해 모델의 트리 수를 자동으로 줄이는 방식으로 효율화를 심화했습니다. 현재는 앙상블 구성과 해석 가능한 군집화의 결합 가능성에 대한 연구를 이어가고 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

효율형 예측 모델 설계
군집 기반 데이터 분할 자동화
트리 수 축소 기반 추론 비용 절감
감정 분석 파이프라인 구축
리뷰 데이터 기반 고객 의도 파악
설명가능 클러스터링 기반 세그먼트 도출
토크나이저 선택 기준 정립
불균형 텍스트 분류 성능 개선
데이터 마이닝용 앙상블 프레임 적용
운영 데이터 기반 모델 재학습 전략