지각적 판단에 대한 교정 피드백은 향후 선택을 개선하기 위해 의사결정 전략을 조정하는 데 핵심적이다. 그러나 이전 자극과 선택과 같은 다른 의사결정 요소들과의 복잡한 상호작용은, 교정 피드백이 이후 의사결정을 어떻게 형성하는지에 대한 원칙적인 설명을 어렵게 만든다. 동물 행동에서 비롯되어 인간의 지각적 의사결정으로 확장된 한 가지 대중적인 접근은 보상 기반 의사결정에서 성공이 입증된 “강화 학습(reinforcement learning)”을 사용한다. 이 접근의 핵심 아이디어는, 지각 과제에 참여하고 있더라도 의사결정자들이 교정 피드백을 자신들의 선택 가치(choice values)를 학습하기 위한 보상으로 취급한다는 것이다. 여기서는 교정 피드백을 보상으로 보기보다, 지각적 판단에 대한 교정 피드백이 세계의 실제 상태에 대한 증거로 간주된다는 대안적 아이디어를 탐구한다. 이러한 “피드백-보상(feedback-as-reward)”과 “피드백-증거(feedback-as-evidence)” 가설을 공통의 학습 플랫폼에서 구현함으로써, 후자가 전자를 능가하며, 교정 피드백이 과거 자극과 선택과 함께 의사결정 전략을 어떻게 조정하는지를 더 잘 설명함을 보여준다. 본 연구는 인간이 지각적 의사결정 동안 교정 피드백을 통해 자신의 선택 가치가 아니라 환경에서 실제로 무슨 일이 일어났는지를 학습한다는 점을 시사한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.