首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >与seq2seq相比,自回归有哪些优势?

与seq2seq相比,自回归有哪些优势?
EN

Data Science用户
提问于 2023-02-24 09:43:33
回答 1查看 161关注 0票数 0

为什么最近的对话代理(如ChatGPT、BlenderBot3和Sparrow )是基于解码器架构而不是编解码结构的?

我知道编码器和解码器的注意力之间的区别,但就对话而言,难道编解码器的注意力不是更好吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2023-02-24 10:40:34

当有输入序列和输出序列时,通常使用编码器-解码器结构,并且输出序列是自回归生成的。编码器同时处理整个输入序列,而解码器接收由编码器计算的表示并生成输出序列。机器翻译就是一个典型的例子。要训练编解码器模型,需要输入和输出序列对.

当您想要生成文本自回归且没有输入(即无条件的文本生成)或输入是输出的“前缀”时,通常只使用解码器结构。典型的例子是语言模型。为了训练一个只有解码器的模型,你需要简单的序列。

虽然您可以使用编解码结构来训练聊天机器人,其中输入是用户的问题或提示,输出是答案,但这会带来一些问题:

  • Difficulty对从互联网上刮来的大量文本数据集进行预训练:大型语言模型依赖于大量从互联网下载的文本进行培训。编码器-译码器结构需要有输入和输出序列,这使得仅仅将互联网上的任何文本作为训练数据的输入和输出变得更加困难。
  • Limited上下文:使用编解码结构,您需要定义输入和输出序列来训练模型。如果将它们分别定义为来自用户的问题/提示和预期的答案,则在同一会话中忽略前面的问题和答案,其中可能包含正确回答以下问题的关键信息。为了正确地使用一些假设的会话训练数据集,使模型使用以前的会话作为上下文,您需要,对于每个用作输出的答案,提供整个之前的会话直到那个时刻的输入。这是不切实际的。在只有解码器的架构中,您只需将整个会话提供给模型,就这样。

除此之外,编译码器注意力的计算与仅注意译码器的注意计算完全相同,因此没有优势。事实上,已经证明了使用仅使用解码器的体系结构提供与编码器-解码器结构相同的质量,至少用于机器翻译。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/118767

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档