报码:用贝叶斯神经网络进行策略搜索(3)_本港台直播_J2开奖直播

右图显示了使用刚刚假设加性高斯噪声的高斯过程（GP）模型发现的策略。所产生的策略在实践中表现非常差，因为GP无法捕获数据中存在的复杂噪声模式。

工业基准评估结果

我们还使用称为“工业基准”的工业系统模拟器对实验中随机输入的贝叶斯神经网络的性能进行评估。作者认为：“工业基准”的目标是在某种意义上是现实的，它包括我们发现在工业应用中至关重要的各个方面。

下图显示，对于固定的动作序列，使用与1）多层感知器相对应的模型产生的roll-out，该多层感知器假定加性高斯噪声（MLP）和我们的贝叶斯神经网络训练2）变异贝叶斯（VB）或3 ）α分散最小化，α= 0.5。模拟的轨迹显示为蓝色，“工业基准”产生的地面实况显示为红色。

这个数字清楚地显示了用随机输入和α发散最小化的贝叶斯神经网络产生的roll-out是如何更接近地面真实轨迹。

结论

我们已经看到，在学习最优策略时，重要的是要考虑到过渡动态中复杂的噪声模式。我们具有随机输入的贝叶斯神经网络是用于捕获这种复杂噪声模式的最先进的模型。通过α＝0.5α的发散最小化，我们能够在这样的贝叶斯神经网络中执行精确的近似推理。这使得我们可以生成可用于学习更好策略的逼真的基于模型的模拟。

进一步阅读

在《隐变量贝叶斯神经网络的不确定性分解》（arXiv:1706.08495）中，我们研究了具有随机输入的贝叶斯神经网络预测中不确定性的分解。不确定性源于a）由于有限的数据（认识论不确定性）缺乏关于网络权重的知识，或b）对网络的随机输入（偶然的不确定性）。在《具有潜在变量的贝叶斯神经网络中的不确定性分解》（arXiv:1706.08495）中，我们展示了如何将这两种类型的不确定性与应用程序分开进行主动学习和安全强化学习。

我们推荐Alex Kendall的优秀的博客文章，此文介绍了上述两种计算机视觉深层神经网络的不确定性。返回搜狐，查看更多

(责任编辑：本港台直播)