近日,GitHub 用户 Xingdong Zuo 又公开发布了一个 PyTorch 的版本和另一个 TensorFlow 版本,机器之心在本文中对前者进行了介绍。...每一个数据样本都由网格世界中当前状态的 (x, y) 坐标构成,后面跟着一张障碍图像(obstacle image)和一张目标图像(goal image)。...然后其被馈送到一个带有 [3,3] 滤波器和 150 个特征图卷积层,之后又是另一个带有 [3,3] 滤波器和 1 个特征图的卷积层。输出张量的形状是 [128, 1, 8, 8]。这就是奖励图像。...答:让我们假设在 8×8 的网格世界中,批大小为 128。一旦我们获得了形状为 [128, 1, 8, 8] 的奖励图像,那么我们就可以为 VI 模块中的 q 层做卷积层。...然后我们做一个面向信道的最大池化,以获得形状为 [128, 1, 8, 8] 的价值图像。最后我们将这个价值图像和奖励图像堆叠在一起,以进行新一次的 VI 迭代。
?