首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >ChatGPT的架构-只有解码器?还是编码器-解码器?

ChatGPT的架构-只有解码器?还是编码器-解码器?
EN

Data Science用户
提问于 2023-02-03 08:57:21
回答 4查看 6.7K关注 0票数 6

ChatGPT使用的是编解码结构还是仅使用解码器的体系结构?我已经接触到媒体和TowardsDataScience的文章,这些文章暗示它有一个编解码结构(请参阅下面的源代码):

-- https://medium.com/@sreedevr/chatgpt-architecture-explained-7fc0cbb7426c

-- https://towardsdatascience.com/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286

-- https://leoneperdigao.medium.com/chatgpt-a-deep-dive-1feade9c4d77

我甚至问ChatGPT自己,它是使用编码器和解码器,还是只使用解码器,它告诉我它有编码器和解码器。对这一问题的答复如下:

“作为一种语言模型,ChatGPT没有只有解码器的体系结构,它有一个编解码结构。具有编解码结构使语言模型(如ChatGPT )能够处理输入序列并根据该输入生成输出。编码器处理输入序列并生成一组隐藏状态,然后由解码器使用这些状态生成输出序列。具有编码器和解码器允许ChatGPT处理涉及基于输入文本生成文本的各种任务,例如语言翻译、摘要和回答问题。具有编解码结构允许ChatGPT在生成的输出中保持上下文和一致性,这对于许多NLP任务非常重要。它可以训练一个只有解码器的语言模型,但它产生连贯文本的能力将受到限制,因为它无法访问编码器提供的上下文。“

然而,我已经有相当一段时间的明确印象,GPT-3 ( ChatGPT部分来源)是一个纯粹的译码器模型。我接受了ChatGPT对自己架构的解释,因为它似乎有时会产生错误的答案。此外,随着ChatGPT的大张旗鼓,以及可能会有错误消息的作者撰写关于该模型的文章,我想知道是否有人知道一个可靠的消息来源可以澄清这个问题。

谢谢

EN

回答 4

Data Science用户

发布于 2023-02-03 09:08:32

GPT代表产生式预训练变压器。

ChatGPT是对GPT的微调。

因此,它是一个解码器。

票数 1
EN

Data Science用户

发布于 2023-03-01 18:40:43

令人惊讶的是,在这个非常基本的问题上存在多大的不和谐--是基于GPT2的LLM (GPT3和ChatGPT)编码器-译码器还是译码器模型?谷歌排名的答案在地图上随处可见,其中大多数都是“只译码器”模型。

嗯.如果不首先从编码数据开始,就无法解码数据。所以答案是..。OpenAI的GPT2和后续模型是编解码器,但通常被称为解码器模型,因为解码器部分(图的右侧)使其不同于seq2seq -> BERT模型的进化路径。但这并不意味着他们是“仅译码器”或缺乏编码器。这意味着,与“仅编码”的BERT模型相比,它们还调用解码。

  • 以上所有假设只适用于。
票数 0
EN

Data Science用户

发布于 2023-03-16 14:27:10

这不是一个完整的答案,但我认为ChatGPT对同一个问题的回答是有趣的,(1)强调它可以改变它的答案,甚至在相同的答案中不一致;(2)以下答案末尾的文本似乎是对它为什么说出它以前所做的事情的合理解释:

ChatGPT是一种使用转换器架构的语言模型,它包括编码器和解码器。具体来说,GPT-3是ChatGPT所基于的模型,它使用的是一个没有显式编码组件的变压器解码器结构。然而,变压器解码器可以被看作是编码器和解码器,因为它接收输入并产生输出,类似于编码器-解码器结构的工作方式。因此,即使ChatGPT没有显式的编码器组件,它也可以被认为在其转换器体系结构中具有编码和解码功能。

我赞赏其他答案中所进行的辩论。我认为我们需要进入语义学。

有三种普遍接受的变压器LLM体系结构:编码器、解码器和编码器-解码器.在这种过于简单的分类法中,LLMs的OpenAI GPT族似乎最适合于解码器分支,因为它们没有像BERT这样的完整编码器,因此不能直接提取结构化数据,例如命名实体识别。

另一方面,没有任何语言模型能够理解语言,没有某种形式的编码。至少,LM需要将单词转换为word嵌入。这可以被认为是一种编码形式,尽管这是一种非常小的编码形式。我怀疑ChatGPT所做的不仅仅是字嵌入,所以它的编码器甚至会更少。

但我不是专家所以我不能给出细节..。目前还没有。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/118260

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档