贝叶斯视角下的Q-学习

2020-10-29 10:37:07

Dabney等人最近的工作。这表明大脑以概率分布的形式表示奖赏预测，实验是使用来自腹侧被盖区的单单位记录在老鼠身上进行的。。这与强化学习(RL)中广泛采用的建模单个标量(期望值)的方法形成了鲜明对比。事实上，通过使用分布，我们能够量化决策过程中的不确定性。在犯了错误可能导致无法恢复此类领域的示例的领域中，不确定性尤其重要，这些领域包括自动驾驶汽车、医疗保健和金融市场。。风险意识强化学习的研究就是为了解决这些问题而出现的。然而，不确定性的另一个重要应用，也就是我们在本文中关注的，是对状态-动作空间的有效探索。

本文的目的是从贝叶斯的角度对Q-Learning进行清晰的解释。因此，我们使用一个小网格世界和表格Q-Learning的一个简单扩展来说明基本原理。具体地说，我们展示了如何扩展确定性Q-Learning算法以使用贝叶斯规则对Q值的方差进行建模。我们将重点放在假设Q值为正态分布是合理的子类问题上，并在此假设成立时得出见解。最后，我们证明了应用贝叶斯规则来更新Q值会带来一个挑战：它容易受到次优策略的早期利用。

本文主要基于Dearden等人的开创性工作。。具体地说，我们在Q值服从正态分布的假设下展开，并对各种贝叶斯勘探策略进行了评估。一个关键的区别是，我们对$$\mu$$和$$\sigma^2$$建模，而最初的Bayesian Q-Learning论文的作者在这些参数上建模分布。这使得他们可以量化参数中的不确定性以及预期回报-我们只关注后者。

自从Dearden等人。如果在参数上建立分布模型，他们可以从该分布中取样，由此导致的Q值分散称为认知不确定性。从本质上讲，这种不确定性代表了有限的数据(即有限的观察值)造成的知识鸿沟。如果我们缩小这一差距，那么我们就会留下不可减少的不确定性(即环境中固有的随机性)，这就是所谓的任意不确定性。人们可以争辩说，认识性不确定性和任意性不确定性之间的界限相当模糊。您输入到模型中的信息将决定可以减少多少不确定性。您合并的有关环境如何运行的基本机制的信息越多(即功能越多)，任意不确定性就会越少。重要的是要注意到，归纳偏差在决定模型的认知不确定性与任意性不确定性的分类中也起着重要作用。关于我们简化方法的重要说明：因为我们只使用$$\sigma^2$$来表示不确定性，所以我们的方法不区分认知性和任意性不确定性。给定足够的交互，代理将缩小知识鸿沟，而$$\sigma^2$$将仅代表任意的不确定性。然而，代理仍然利用这种不确定性进行探索。这是有问题的，因为探索的全部目的是获取知识，这表明我们应该只利用认知的不确定性进行探索。

由于我们建模的是$$\µ$$和$$\sigma^2$$，因此我们首先评估假设Q值服从正态分布的条件。

时差(TD)学习是强化学习中学习价值函数的主流范式。下面我们将快速总结一种Q值的TD学习算法，称为Q-学习。首先，我们将按如下方式编写Q值：

\overbrace{q_\pi(s，a)}^\text{当前q值}=\overbrace{R_s^a}^\text{(s，a)的预期奖励}+\overbrace{\Gamma q_\pi(s^{\Prime}，a^{\Prime})}^\text{下一时间步的贴现Q值}我们将精确地将Q值定义为在$$s$$状态下采取操作$$a$并随后执行策略$$\pi$的总回报的期望值。关于$$\pi$$的部分很重要，因为代理对操作有多好的看法取决于它在后续状态中将采取的操作。我们将在游戏环境中分析我们的代理时进一步讨论这一点。

对于Q-Learning算法，我们对来自环境的奖励$$r$$进行采样，并估计当前状态-动作对$$q(s，a)$$和下一个状态-动作对$$q(s^{\Prime}，a^{\Prime})$$的Q值。对于Q-Learning，下一个动作$$a^{\Prime}$$是该状态中具有最大Q值的动作：$$\max_{a^{\Prime}}q(s^{\Prime}，a^{\Prime})$$。。我们可以将样品表示为：

Q(s，a)=r+\γq{(s^\Prime，a^\Prime)}要认识到的重要一点是，方程的左侧是估计(当前Q值)，而右侧是从环境中收集的信息(采样的奖励)和另一个估计(下一个Q值)的组合。由于公式的右侧比左侧包含更多有关真实Q值的信息，因此我们希望将左侧的值移动到更接近右侧的值。我们通过最小化时差平方误差($$\delta^2_{td}$$)来实现这一点，其中$$\delta^{td}$$定义为：

\Delta_{td}=r+\Gamma q(s^\Prime，a^\Prime)-q(s，a)我们在表格环境中执行此操作的方式(其中$$\alpha$$是学习率)具有以下更新规则：

Q(s，a)\leftarrow\alpha(r_{t+1}+\Gamma q(s^\素数，a^\素数))+(1-\alpha)q(s，a)以这种方式更新称为自举，因为我们使用一个Q值来更新另一个Q值。

我们将使用中心极限定理(CLT)作为了解Q值何时正态分布的基础。因为Q值是样本总和，所以随着样本大小的增加，它们应该看起来越来越呈正态分布。然而，我们要指出的第一个细微差别是，奖励必须从方差有限的分布中抽样。因此，如果报酬是抽样分布，如柯西或L&；Eacutevy，那么我们就不能假设Q值是正态分布的。

否则，当有效时间步数$$\Widdetilde{N}$$较大时，Q值近似为正态分布。我们可以将有效时间步数看作是全样本的数目。。此指标由三个因素组成：

$$\xi$$-稀疏性：我们将稀疏性定义为时间步数，平均而言，在Google Colab笔记本中收到非零奖励之间肯定会收到零奖励。我们运行模拟显示，$$\xi$$减少了$$\frac{1}{\xi+1}$$：在笔记本中进行实验。当存在稀疏性时，我们会丢失样本(因为它们始终为零)。因此，随着$$\xi$$的增加，$$\widetilde{N}$$减少。

$$\Gamma$$-折扣系数：随着$$\Gamma$$变得越来越小，相对于遥远的奖励，代理商更重视即时奖励，这意味着我们不能将远程奖励视为完整样本。因此，随着$$\Gamma$$的增加，$$\widetilde{N}$$也会增加。

我们将总回报定义为贴现的未来回报的总和，其中贴现因子$$\γ$$可以采用$$0$$(近视)和$$1$$(远视)之间的任何值。它有助于将结果分布$$G_t$$视为加权混合分布。

G_t=r_{t+1}+\Gamma r_{t+2}+\Gamma^2 r_{t+3}+...+\Gamma^{N-1}r_{t+N}当我们设置$$\Gamma\lt 1$$时，底层分布的混合权重从等权变为时间加权，其中即时时间步长的权重较高。当$$\Gamma=0$$时，这等同于仅从一个时间步采样，CLT将不起作用。使用滑块查看$$\Gamma$$对混合权重的影响，并最终查看混合分布。

$$\Gamma$$=。

我们结合上述因素来正式定义有效时间步长的数量：\widetilde{N}=\frac{1}{\xi+1}\sum_{i=0}^{N-1}\Gamma^{i}下面我们直观地演示每个因素如何影响Q值的正态性。我们将Q值缩放$$\widetilde{N}$，因为否则随着有效时间步数的增加，Q值的分布会越来越向右移动，这会扭曲视觉。：

当代理考虑的所有奖励均为0时，过度稀疏，再加上低贴现率或低时间步数，将导致狄拉克增量函数(Dirac Delta Function)。

在笔记本中进行实验对于具有终端状态的环境，上述可视分析中有一个警告。随着座席向终端状态移动，$$N$$将逐渐变小，Q值将看起来更不呈正态分布。尽管如此，如果我们使用较大的$$\Gamma$$，对于密集奖励环境中的大多数州来说，假设Q值近似为正态分布是合理的。

我们在本节的开头指出，只有当我们假设Q值是正态分布时，以下解释才在理论上是合理的。我们首先使用贝叶斯定理定义一般更新规则：

\text{后验}\proto\text{似然}\次\text{先验}在使用高斯时，我们得到了后验A高斯与自身共轭的解析解，这大大简化了贝叶斯更新过程，而不是计算后验积分，而是闭合形式的表达式。：

\MU=\frac{\sigma^2_1}{\sigma^2_1+\sigma^2_2}\Mu_2+\frac{\sigma^2_2}{\sigma^2_1+\sigma^2}\Mu_1\sigma^2=\frac{\sigma^2_1\sigma^2_}{\sigma^2_1+\sigma^2_2}通过查看颜色编码的比较，我们可以看到确定性Q-Learning等价于使用Bayes'更新平均值：

\BEGIN{Aligned}&；\COLOR{GREEN}\MU&；\COLOR{黑色}=&；&；\color{orange}\frac{\sigma^2_1}{\sigma^2_1+\sigma^2_2}&；&；\COLOR{RED}\MU_2&；&；\COLOR{黑色}+&；&；\color{purple}\frac{\sigma^2_2}{\sigma^2_1+\sigma^2_2}&；\color{Blue}\mu1&；\&；\color{green}q(s，a)&；\color{Black}=&；&；\color{range}\alpha&；&；\color{red}(r_{t+1}+\Gamma q(s^\Prime，a^\Prime))&；&；\color{Black}+&；&；\color{purse}(1-\alpha)&；&；\color{Blue}q(s，a)&；\end{aligned}这对Q-Learning的确定性实现(其中$$\alpha$$是超参数)有什么启示？由于我们在确定性Q-Learning中没有对Q值的方差进行建模，因此$$\α$$不显式地依赖于Q值的确定性。取而代之的是，我们可以将$$\α$$解释为该代理在其先前，$$Q(s，a)$$与可能性，$$r+\γQ(s^\素数，a^\素数)$$的比率。我们的度量是$$r+\γq(s^\素数，a^\素数)$$，因为$$r$$是直接从环境中给出的信息。我们将概率表示为此度量上的分布：$$\数学{N}\Left(\Mu_{r+\Gamma Q(s^\Prime，a^\Prime)}，\sigma^2_{r+\Gamma Q(s^\Prime，a^\Prime)}\Right)$$。。对于确定性Q-Learning，这个比率通常是恒定的，并且$$Q(s，a)$$中的不确定性不会随着我们获得更多信息而改变。

如果我们保持$$\alpha$$不变，在引擎盖下会发生什么？就在前一个时间步的后验成为当前时间步的先验之前，我们将方差增加$$\sigma^2_{\text{previous}_{(t-1)}}*\alpha$$当$$\alpha$$保持不变时，先前的方差隐式经历以下转换：$$\sigma^2_{\text{previous}_{(T)}}=\sigma^2_{\text{postal}_{(t-1)}}+\sigma^2_{\text{previous}_{(t-1)}}*\alpha$$。派生让我们首先说明$$\Alpha=\frac{\sigma^2_\text{prior}}{\sigma^2_\text{prior}+\sigma^2_\TEXT{可能性}}$$，这可以从正文中的颜色编码比较中推导出来。给定更新规则$$\sigma^2_{\Text{后验}_{(T)}}=\FRAC{\sigma^2_{\Text{之前}_{(T)}}\次\sigma^2_{\text{likelihood}_{(t)}}}{\sigma^2_{\text{prior}_{(t)}}+\sigma^2_{\Text{可能性}_{(T)}$$，我们知道$$\sigma^2_{\text{后发}_{(T)}}\lt\sigma^2_{\text{之前}_{(T)}}$$我们还知道更新规则以这样一种方式工作：$$\sigma^2_{\text{之前}_{(T)}}=\sigma^2_{\text{后发}_{(t-1)}}$因此，如果我们假设$$\sigma^2_\text{以前}_{(T)}}\lt\sigma^2_{\text{之前}_{(t-1)}}$$，我们可以声明$$\sigma^2_{之前}_{(T)}}\lt。这意味着$$\alpha_{(T)}\neq\alpha_{(t-1)}$$为了使$$\alpha_{(T)}=\alpha_{(t-1)}$$，我们需要增加$$\sigma^2_{\text{后验}_{(t-1)}}$$，然后它才会变为$$\sigma^2_{\text{之前}_{(T)}}$$。我们求解如下金额：$$\BEGIN{ALIGNED}\sigma^2_{\Text{Postal}_{(t-1)}}+X&；=\sigma^2_{Text{Previous}_{(t-1)}}\\FRAC{\sigma^2_{\Text{Pre}_{(t-1)}\x\sigma^2_\text{likelihood}}{\sigma^2_{\text{prior}_{(t-1)}}+\sigma^2_{可能性}}+X&；=\sigma^2_{\Text{之前}_{(t-1)}}\\X&；=\sigma^2_{\Text{之前}_{(t-1)}}\Left(1-\frac{\sigma^2_\text{likelihood}}{\sigma^2_{\text{prior}_{(t-1)}}+\sigma^2_\Text{可能性}}\右)\\X&；=\sigma^2_{\text{之前}_{(t-1)}}*\alpha\end{aligned}$$。这使得似然和先验之间的不确定性比率保持恒定。另一种解释是，先验和似然的方差都在以保持它们之间的比率恒定的方式递减。然而，我们认为，假设抽样报酬的方差会随着代理人在其先验信息中变得更加确定而不断减小，这是不合理的。。下面，我们通过将常规贝叶斯更新与常量$$\alpha$$更新进行比较来可视化这种解释：

对于使用贝叶斯规则的每次更新，我们使用最近计算的后验作为新的先验。

现在我们知道了当我们保持$$\alpha$$恒定时，在引擎盖下会发生什么，值得注意的是，并不是每个人都保持恒定。在实践中，研究人员还会衰减$$\alpha$$，使代理人在随后的每个时间步减少对新信息的依赖(隐含地变得更确定)。虽然确定性Q-Learning在很大程度上依赖于启发式方法来创建衰减时间表，但是贝叶斯Q-Learning内置了它：

\alpha=\frac{\sigma^2_{q(s，a)}}{\sigma^2_{q(s，a)}+\sigma^2_{r+\Gamma q(s^\Prime，a^\Prime)}}当我们的代理更新其对世界的信念时，它将自然地创建一个衰变时间表，该时间表与其先前的确定性相对应。随着不确定性的减少，学习率也随之降低。请注意，每个状态-动作对的学习率都是定制的，因为可以在以下情况下变得更有信心

Q值采样：我们从Q值分布中进行采样，并选择采样Q值最大的动作。这种形式的探索在Q-学习的情况下称为Q值抽样，在一般情况下称为Thompson抽样。

近视-VPI：我们用完美信息的值(VPI)$$\text{VPI}(s，a)=\int^\infty_{-\infty}\text{ain}_{s，a}(X)pr(\mu{s，a}=x)dx$$来量化政策改进的近视视图，这可以直观地描述为对当前最佳操作的预期改进。。它是短视的，因为它只考虑当前时间步长的改进。我们选择最大化$$\mu{s，a}+\text{vpi}(s，a)$$的操作。

通过与上面的视觉交互，人们可能会想，我们是否可以推断另一个随机策略的勘探参数是什么，即Q值抽样，它没有明确定义$$\varepsilon$$。我们将在下一节探讨这个问题。

与我们显式定义$$\varepsilon$$作为勘探超参数的确定性Q-Learning相反，当我们使用Q值采样时，存在一个隐式ε$$\HAT{\varepsilon}$$。在定义$$\hat{\varepsilon}$$之前，我们将去掉一些符号。让定义两个概率分布，$$x_1\sim\Mathcal{N}(\MU_1，\sigma^2_1)$$和$$x_2\sim\Mathcal{N}(\MU_2，\sigma^2_2)$$。要计算抽样值$$x_1\gt x_2$$的概率，可以使用以下公式，其中$$\φ$$表示累积分布函数：

\BEGIN{ALIGNED}&；\MU=\MU_1-\MU_2\\&；\sigma=\sqrt{\sigma^2_1+\sigma^2_2}\\&；Pr(x_1\gt x_2)=1-\Phi\Left(\frac{-\µ}{\sigma}\right)\end{aligma}使用此公式，我们现在可以计算参考操作$$\hat{a}$$相对于另一个操作采样较大Q值的概率。如果我们对Agent可以做出的每个动作(不包括参考动作)这样做，并计算联合概率，那么我们就得到了$$\HAT{a}$$的采样Q值大于给定状态下的所有其他动作的概率，则一个动作的Q值应该独立于该状态下的其他Q值。这是因为一次只能执行一个操作，并且我们通常将Q学习应用于MDP，其中马尔可夫属性成立(即历史无关紧要)。因此，要计算联合概率，只需将边际概率相乘即可。：

\bar{P}_{\hat{a}}=\prod_{a}^{\mathcal{A}}pr(x_{\hat{a}}\gt x_a)，\quad\text{for}，\，a\neq\hat{a}然后我们会找到具有最大$$\bar{P}_{a}$$的操作，因为如果我们从'；如果使用正态分布，则$$\text{arg}\max{\bar{P}_{a}}$$恰好对应于平均值最大的Q值。。

A_{max}=\text{arg}\max{\bar{P}_{a}}，\quad\forall\，\，a\in\mathcal{A}那么，如果我们对除利用操作之外的所有操作的最大Q值进行采样的概率求和，那么我们将获得以下概率：

\hat{\varepsilon}=\frac{1}{C}\sum_{a}^{\mathcal{A}}\bar{P}_{a}，\quad\text{for}，\a\neq a_{max}我们现在将理论付诸实践！通过对学习过程的考察，我们可以看到，将贝叶斯规则应用于Q-Learning是一个关键的挑战。具体地说，我们关注的是发散的Q值分布，这可能会导致代理对次优策略变得有信心。

作为金融市场的研究人员，我们在设计了具有相似特征的子类问题后，设计了环境。这些印刷机。

https://brandinho.github.io/bayesian-perspective-q-learning/

tags users