대규모 언어 모델(LLMs)은 최근 매우 자연스럽고 인간과 유사한 텍스트를 생성할 수 있다는 점에서 큰 주목을 받고 있다. 본 연구는 가설 검정 절차 내에서 LLM이 생성한 텍스트와 인간이 작성한 텍스트의 잠재 커뮤니티 구조를 비교한다. 구체적으로, 우리는 세 가지 텍스트 집합을 분석한다. 즉, 원래의 인간이 작성한 텍스트(), 그 LLM의 패러프레이즈 버전() 및 로부터 파생된 두 번 패러프레이즈된 집합()이다. 본 분석은 두 가지 핵심 질문을 다룬다. (1) 와 간의 잠재 커뮤니티 구조 차이가 와 간의 차이와 동일한가? (2) LLM 파라미터로서 텍스트 변동성을 제어하는 값이 조정될 때, 가 LLM에 의해 더 로 유사해지는가? 첫 번째 질문은 LLM이 생성한 텍스트가 진정으로 인간 언어를 닮는다면, 원래 텍스트와 그 패러프레이즈로 구성된 두 쌍()과() 사이의 간극이 유사할 것이라는 가정에 기반한다. 두 번째 질문은 LLM이 생성한 텍스트와 인간 텍스트 간의 유사성 정도가 텍스트 생성의 범위(폭) 변화에 따라 달라지는지를 살펴본다. 이러한 질문에 답하기 위해, 우리는 각 텍스트가 와 사이에 해당하는 부분을 갖는다는 사실을 활용하는 통계적 가설 검정 프레임워크를 제안한다. 이 관계는 한 데이터셋의 상대적 위치를 다른 데이터셋에 매핑할 수 있게 하여, 두 데이터셋을 세 번째 데이터셋으로 매핑할 수 있도록 한다. 그 결과, 두 개의 매핑된 데이터셋을 세 번째 데이터셋이 특징짓는 공간에서 정량화함으로써 두 데이터셋 간의 직접적인 비교가 가능해진다. 의 경우, 원래 인간 텍스트에 대해 숙소 예약 사이트에서 고객 리뷰를 수집하였고, 및 의 경우에는 GPT-3.5를 사용하여 를 패러프레이즈하였다. 우리의 결과는 GPT가 생성한 텍스트가 인간이 작성한 텍스트와는 여전히 구별된다는 점을 시사한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.