이 연구는 생성 AI가 만들어내는 콘텐츠의 사실적 일관성과 진실성을 체계적으로 검증하고, 환각(hallucination) 현상을 탐지 및 완화하는 핵심 기술을 개발하여, 신뢰할 수 있는 생성 AI 생태계 구축을 목표로 한다. 이를 위해 연구진은 생성 AI가 주어진 정보에 대해 실제 세계의 사실과 어긋나는 내용을 생성하는 현상을 탐지하고 그 원인을 체계적으로 분석하는 기술을 개발하며, 문제 발생의 원인을 훈련 데이터, 프롬프트 설계, 모델 구조, 학습 과정 및 디코딩 전략 등으로 세분화하여 각각에 최적화된 환각 완화 기법을 설계하고자 한다. 궁극적으로는 이러한 탐지 및 완화 기술을 토대로 도메인 특화된 신뢰형 생성 AI 모델을 구축하고, 자동화된 평가 시스템과 함께 환각 검출용 벤치마크 데이터셋, 설계 가이드라인, 데이터 저작 도구 등을 개발·공개함으로써 생성 AI의 품질과 신뢰도를 정량적으로 평가할 수 있는 인프라를 마련한다. 본 과제의 성과는 인간 피드백을 대체하는 RLMF(Reinforcement Learning with Machine Feedback)와 같은 미래형 학습 프레임워크로 확장되어, 비용 효율성을 높이고 인간 개입의 주관성을 줄이는 동시에, 의료·법률·금융 등 고신뢰 산업 분야에서 생성 AI의 적용 가능성을 대폭 확대할 수 있다. 또한 다양한 규모와 아키텍처의 언어모델에 유연하게 적용될 수 있는 기술로서, 클라우드 기반의 초거대모델부터 소형 디바이스에서도 운영 가능한 범용성까지 확보함으로써, 산업 전반에 걸쳐 높은 기술 파급력과 상용화 가능성을 보여준다. 사회적으로도 정보 취약계층을 포함한 일반 대중에게 신뢰도 높은 정보를 전달할 수 있는 기반을 제공함으로써 AI 활용의 접근성과 수용성을 증진하고, 국가지원 기술정책에서의 전략적 우위를 확보할 수 있는 기반 기술로 자리매김할 수 있을 것으로 기대된다.