사회학적 텍스트에 담긴 이야기를 온전히 추출하기 위해서는 행위의 주체, 대상, 그리고 그 둘 사이의 관계를 파악해야 하지만, 전산사회과학에서 주로 사용되어 온 토픽 모형이나 단어 임베딩과 같은 방법은 텍스트를 곧바로 단어의 수준으로 분해하기 때문에 이러한 역할 구분을 포착할 수 없다. 본 연구는 한국어 문장에서 주체, 객체, 술어로 구성된 삼중항을 추출하는 방법을 발전시켜 행위 주체를 파악할 수 있도록 사회학적 텍스트 분석을 발전시킬 것을 제안한다. 이에 본 연구에서는 인간 코더를 통해 구축한 의미역 결정(Semantic Role Labeling, 이하 SRL) 학습 데이터셋을 활용하여 시범적 SRL 자동분류 모델을 개발하고 평가하였다. 학습 데이터셋은 한국학술지인용색인에 2019년 1월부터 2023년 6월까지 등재된 중분류 중 ‘사회학’, ‘정치외교학’, ‘사회과학일반’ 논문 초록과 같은 기간 빅카인즈에 등록된 5대 일간지 ‘사회면’ 기사를 활용하였다. 이렇게 구축된 데이터셋에서 총 1,850개 문장을 무작위 추출하여 SRL을 수행한 결과, 학문 영역 간에 빈도분석으로는 드러나지 않던 단어의 역할 차이가 관찰되었다. 또한 본 연구에서 구축한 SRL 분류 모델의 성능을 검증한 결과, 국립국어원 대규모 말뭉치 기반 모델에 비해 사회 영역의 텍스트에 대해서 약간 더 높은 정확도를 보였다. 마지막으로 추출한 삼중항들을 연결망으로 종합해 시각화하는 도구를 제공하여, 행위 주체별 서사를 파악하고 그 총합으로서 전체 이야기를 파악할 수 있도록 하였다. 향후 사회 영역 텍스트에 대해 꾸준히 SRL 결과를 축적하고 더욱 우수한 자연어처리 모델로 학습시킨다면, 전산사회과학적 연구와 질적 연구를 혼합하는 연구방법론을 발전시키고 이를 활용해 사회를 더욱 잘 이해할 수 있을 것으로 기대한다.