至少在编码器的第一个自我注意层,输入与输出有对应关系,我有以下问题。
发布于 2021-10-18 07:08:05
考虑输入的句子--“我很好”。
在RNNs中,我们将句子逐字提供给网络。也就是说,首先将"I“作为输入传递,然后传递"am”,以此类推。我们逐字逐句地给句子喂食,这样我们的网络就能完全理解句子。
但对于变压器网络,我们不遵循递归机制。所以,我们不是逐个给出句子,而是把句子中的所有单词都与网络并行。同时提供单词有助于减少训练时间,也有助于学习长期依赖关系。
我们给出的词平行于变压器,词序(单词在句子中的位置)是很重要的。因此,我们应该向转换器提供一些关于词序的信息,以便它能够理解句子。
如果将输入矩阵直接传递给变压器,它就无法理解词序。因此,我们不需要直接将输入矩阵输入到变压器,而是需要添加一些表示词序(单词位置)的信息,以便我们的网络能够理解句子的意义。为此,我们引入了一种称为位置编码的技术。位置编码,顾名思义,是一种表示单词在句子中的位置(语序)的编码。
https://datascience.stackexchange.com/questions/103224
复制相似问题