#sigma

A Bayesian Perspective on Q-Learning(brandinho.github.io)

2020-10-29 10:37

Dabney等人最近的工作。这表明大脑以概率分布的形式表示奖赏预测，实验是使用来自腹侧被盖区的单单位记录在老鼠身上进行的。。这与强化学习(RL)中广泛采用的建模单个标量(期望值)的方法形成了鲜明对比。事实上，通过使用分布，我们能够量化决策过程中的不确定性。在犯了错误可能导致无法恢复此类领域的示例的领域中，不确定性尤其......