为什么最近的对话代理(如ChatGPT、BlenderBot3和Sparrow )是基于解码器架构而不是编解码结构的?
我知道编码器和解码器的注意力之间的区别,但就对话而言,难道编解码器的注意力不是更好吗?
发布于 2023-02-24 10:40:34
当有输入序列和输出序列时,通常使用编码器-解码器结构,并且输出序列是自回归生成的。编码器同时处理整个输入序列,而解码器接收由编码器计算的表示并生成输出序列。机器翻译就是一个典型的例子。要训练编解码器模型,需要输入和输出序列对.
当您想要生成文本自回归且没有输入(即无条件的文本生成)或输入是输出的“前缀”时,通常只使用解码器结构。典型的例子是语言模型。为了训练一个只有解码器的模型,你需要简单的序列。
虽然您可以使用编解码结构来训练聊天机器人,其中输入是用户的问题或提示,输出是答案,但这会带来一些问题:
除此之外,编译码器注意力的计算与仅注意译码器的注意计算完全相同,因此没有优势。事实上,已经证明了使用仅使用解码器的体系结构提供与编码器-解码器结构相同的质量,至少用于机器翻译。。
https://datascience.stackexchange.com/questions/118767
复制相似问题