최근의 대규모 추론 모델(Large Reasoning Models, LRMs)은 수학과 프로그래밍과 같은 고도로 구조화된 분야에서 인상적인 능력을 보여주었다. 그러나 효과적인 추론이 교육적으로 의미 있어야 하고, 맥락에 민감하며, 실제 학생의 요구에 반응해야 하는 교육 분야에서의 적용은 상대적으로 덜 탐구되어 있다. 기존의 대규모 언어 모델(LLMs)은 종종 교수적 일관성을 제공하거나, 형성적 피드백을 제공하거나, 정교한 교사 의사결정을 시뮬레이션하는 데 어려움을 겪어 교육 현장에서의 실용성이 제한된다. 이러한 공백을 메우기 위해, 우리는 진정한 교실 과제를 위해 LLM을 적응시키도록 설계된 포괄적 교수학적 추론 프레임워크인 Pedagogy-R1을 제시한다. 우리의 접근은 세 가지 핵심 혁신을 포함한다: (1) 교수학적으로 필터링된 출력을 사용하여 명령 튜닝(instruction tuning)에 활용하는 증류 기반 학습 파이프라인, (2) 다섯 가지 차원—교과 지식, 교수학적 지식, 지식 추적, 에세이 채점, 그리고 현실 세계의 교사 의사결정—에 걸쳐 모델을 체계적으로 평가하는 Well-balanced Educational Benchmark (WBEB), 그리고 (3) 교수학적 훈련 데이터를 생성하고 추론 시 교사와 유사한 추론을 이끌어내는 데 모두 사용되는 Chain-of-Pedagogy (CoP) 프롬프팅 전략이다. 우리는 혼합 방법 평가를 수행하며, 모델 성능에 대한 세부 정량 분석과 모델의 교수학적 추론 양상에 대한 질적 통찰을 결합한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.