Bengio团队新论文!KL正则化有漏洞 不要做我可能不会做的事情 强化学习新策
新智元报道编辑,LRS,新智元导读,在强化学习中,当智能体的奖励机制与设计者的意图不一致时,可能会导致不理想的行为,而KL正则化作为一种常用的解决方案,通过限制智能体的行为来防止这种情况,但智能体在某...
新智元报道编辑,LRS,新智元导读,在强化学习中,当智能体的奖励机制与设计者的意图不一致时,可能会导致不理想的行为,而KL正则化作为一种常用的解决方案,通过限制智能体的行为来防止这种情况,但智能体在某...