因此,我们要把与所有图像相关联的标注转换为标记化单词列表,然后将其转换为可用于训练网络的PyTorch张量。...最后,在line 6中,我们将整数列表转换为PyTorch张量并将其转换为 long 类型。 此外,你可以在 这个网站上阅读有关不同类型PyTorch张量的更多信息。...', ]
然后将此token列表转换为整数列表,其中,词汇表中的每个不同单词都具有各自相关联的整数值:
[0, 3, 98, 754, 3, 396, 207, 139, 3, 753, 18..., 1]
最后,此列表将转换为一个PyTorch张量。...编码器使用预先训练的ResNet-50架构(删除了最终的完全连接层)从一批预处理图像中提取特征。然后将输出展平为矢量,然后通过 Linear层,将特征向量转换为与单词向量同样大小的向量。
?