Difficulty对从互联网上刮来的大量文本数据集进行预训练：大型语言模型依赖于大量从互联网下载的文本进行培训。编码器-译码器结构需要有输入和输出序列，这使得仅仅将互联网上的任何文本作为训练数据的输入和输出变得更加困难。
Limited上下文：使用编解码结构，您需要定义输入和输出序列来训练模型。如果将它们分别定义为来自用户的问题/提示和预期的答案，则在同一会话中忽略前面的问题和答案，其中可能包含正确回答以下问题的关键信息。为了正确地使用一些假设的会话训练数据集，使模型使用以前的会话作为上下文，您需要，对于每个用作输出的答案，提供整个之前的会话直到那个时刻的输入。这是不切实际的。在只有解码器的架构中，您只需将整个会话提供给模型，就这样。

除此之外，编译码器注意力的计算与仅注意译码器的注意计算完全相同，因此没有优势。事实上，已经证明了使用仅使用解码器的体系结构提供与编码器-解码器结构相同的质量，至少用于机器翻译。。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/118767

复制

相似问题

问与seq2seq相比，自回归有哪些优势？
EN

问与seq2seq相比，自回归有哪些优势？EN