想知道更多可以访问:https://medium.com/datalogue/attention-in-keras-1892773a4f22
在指针网络中, 注意力更简单:它不考虑输入元素,而是在概率上指向它们...也就是说,我们讨论的是输入元素的顺序。作者发现,它对结果影响很大, 这不是我们想要的。因为本质上我们处理的是集合作为输入, 而不是序列。集合没有固定的顺序,所以元素是如何排列在理论上不应该影响结果。...实验代码在GitHub可以使用。与original repo相比, 我们添加了一个数据生成脚本, 并更改了训练脚本以从生成的文件中加载数据。...换句话说,序列长度是固定的。
?
处理这一问题的方法是在最大可能的序列长度上固定维度, 并用零填充未使用的位置。
但它有可能搞乱代价函数,因此我们更好地掩盖那些零, 确保他们在计算损失时被省略。...Keras官方的做法似乎是embdedding layer。相关参数为mask_zero:
mask_zero: 无论输入值0是否是一个特殊的 “padding” 值, 都应该被屏蔽掉。