本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】资源 | 价值迭代网络的PyTorch实现与Visdom可视化(2)

时间:2017-04-01 01:32来源:118图库 作者:本港台直播 点击:
答:观察图像有 2 个信道。第一个信道是障碍图像(0:无障碍,1:障碍)。第二个信道是目标图像(0:无目标,10:目标)。比如说,在 88 的网格世界中

答:观察图像有 2 个信道。第一个信道是障碍图像(0:无障碍,1:障碍)。第二个信道是目标图像(0:无目标,10:目标)。比如说,在 8×8 的网格世界中,批大小为 128 的输入张量的形状是 [128, 2, 8, 8]。然后其被馈送到一个带有 [3,3] 滤波器和 150 个特征图卷积层,之后又是另一个带有 [3,3] 滤波器和 1 个特征图的卷积层。输出张量的形状是 [128, 1, 8, 8]。这就是奖励图像。

问:过渡模型(transition model)到底是什么?怎么通过 VI 模块从奖励图像中获取价值图像?

答:让我们假设在 8×8 的网格世界中,批大小为 128。一旦我们获得了形状为 [128, 1, 8, 8] 的奖励图像,j2直播,那么我们就可以为 VI 模块中的 q 层做卷积层。[3,3] 滤波器表示其过渡概率。存在一个有 10 个滤波器的集合,其中每一个都是为了在 q 层中生成一个特征图。每一个特征图对应于一个「action」。注意这比真实可用的动作(只有 8)大一些。然后我们做一个面向信道的最大池化,以获得形状为 [128, 1, 8, 8] 的价值图像。最后我们将这个价值图像和奖励图像堆叠在一起,以进行新一次的 VI 迭代。

  本文为机器之心编译,转载请联系本公众号获得授权

  ?------------------------------------------------

加入机器之心(全职记者/实习生):[email protected]

投稿或寻求报道:[email protected]

广告&商务合作:[email protected]

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容