神经网络和Pytorch的新手。
我在每个迷你批次中有300个回放记忆。我见过人们计算300个回放记忆的损失,但这对我来说并不是真的有意义。300个回放记忆来自非常不同的游戏状态,为什么将预测和目标之间的300个差异合并到一个值中是有意义的?当模型反向传播时,梯度是否被分成300个分支,每个分支对应于迷你批次中的一个条目?我的策略网络输出10个动作的概率分布,或者300 x 10张量</em
我有一个用PyTorch编写的神经网络,它在GPU上输出一些张量a。我想继续使用高效的a层来处理TensorFlow。据我所知,唯一的方法是将a从GPU内存移到CPU内存,转换为numpy,然后将其输入TensorFlow。一个简化的例子:import tensorflow as tf
a =在上面使用non_blocking=True<e
l2_penalty = l2_lambda * sum([(p**2).sum() for p in conv_layer.parameters()])
这里的p变量是什么,并为什么迭代?根据我的发现,conv_layer.parameters()返回p的2个张量。迭代中的第一个p是输出张量.But,迭代中的第二个p张量是什么?