我试图理解为什么变压器使用多个注意头。我发现了下面的报价
变压器使用的是多个注意力头,而不是使用单一的注意力函数,即注意力可以由实际单词本身支配。
什么是“注意力被单词本身所支配”,使用多个头是如何解决这个问题的?
发布于 2021-02-18 12:18:15
由于观察到不同的词以不同的方式相互关联,所以引入了多头关注。对于一个给定的词,句子中的其他词可以起到调节或否定意义的作用,但也可以表达继承(是一种)、占有(属于)等关系。
我发现这个在线讲座非常有用,并给出了下面的例子:
“这家餐厅并不是太可怕的。”
请注意,“糟糕”一词的含义被“太”和“不”(也是:适度,不是:倒置)和“糟糕”这两个词扭曲了,因为它表达了一种属性。
https://stackoverflow.com/questions/66244123
复制相似问题