#sigma

2020-10-29 10:37
Dabney等人最近的工作。这表明大脑以概率分布的形式表示奖赏预测,实验是使用来自腹侧被盖区的单单位记录在老鼠身上进行的。。这与强化学习(RL)中广泛采用的建模单个标量(期望值)的方法形成了鲜明对比。事实上,通过使用分布,我们能够量化决策过程中的不确定性。在犯了错误可能导致无法恢复此类领域的示例的领域中,不确定性尤其......