文章/答案/技术大牛

发布

深度解析ChatGPT底层逻辑，探秘AI模型的神奇世界，初中生也能看懂的ChatGPT基本原理

文章来源：企鹅号 - 小猪动漫社

一篇文章用通俗易懂的方式让你读懂火爆全球的ChatGPT

从以下几方面详细介绍ChatGPT：ChatGPT是什么、GPT分别代表什么、它的底层逻辑及原理、模型的训练过程、以及GPT-1、2、3的区别

ChatGPT是什么

ChatGPT是一种基于自然语言处理技术的人工智能聊天机器人。它是由OpenAI开发的一种AI模型，采用了GPT技术能够与用户进行自然的交互并提供有用的信息。

G、P、T分别代表什么

GPT全称为Generative Pre-trained Transformer，是一种基于Transformer网络结构的自然语言处理技术，能够生成自然流畅的文本，在机器翻译、问答系统、聊天机器人等领域有广泛应用。

G：Generative，即模型可以生成符合语法和语义规则的文本。

P：Pre-training，即模型使用大量的无标注数据进行训练，以提高其语言理解和生成的能力。

T：Transformer，即模型采用的一种神经网络架构，使得模型在处理长文本时表现更优秀。（Transformer概念是由Google研究团队于2017年提出的，并在机器翻译任务上取得了很好的效果。简单说就是：它的出现解决了传统序列模型在处理较长的文本时难以结合上下文依赖关系的问题。）

Transformer的背景及原理：

传统的序列模型（例如循环神经网络和卷积神经网络）在处理长序列时面临着一些问题，如难以捕捉长距离依赖关系和训练过程中梯度消失等。而Transformer采用了一种全新的方法，它使用了一种名为自注意力机制（self-attention mechanism）的技术来计算输入序列中不同位置之间的相互依赖关系，从而更好地捕捉输入序列中的关键信息。

在Transformer中，输入序列首先被嵌入到一个高维向量空间中，然后进行多次自注意力计算和前馈神经网络计算，最后输出预测结果。这种计算方式使得Transformer能够在处理长序列时保持较好的效果，并且具有更好的并行计算能力，因此在自然语言处理和其他序列到序列任务中取得了显著的进展。

ChatGPT的底层逻辑、回答问题的基本原理

当用户输入一段话时，ChatGPT会使用自然语言处理技术来理解用户的意图和问题。接着，ChatGPT会对其模型进行推理，找出最合适的答案。最后，ChatGPT会输出一段语言作为回答，以回应用户的提问。

输入处理

在用户输入文本后，ChatGPT会使用自然语言处理技术来理解用户的问题和意图。

这一步通常采用词嵌入（Word Embedding）技术将单词映射为实数向量，并将整个句子表示为向量序列。

上下文处理

ChatGPT会对其模型进行推理，找出最合适的答案。

这过程中Transformer的核心自注意力机制（Self-Attention Mechanism）就会起作用，着重处理上下文的信息，以便更加准确理解用户的意图，找出合适的答案。

输出生成

在前两步处理后，ChatGPT模型会生成回答。

输出生成过程中会用到自然语言生成技术（Natural Language Generation）生成自然、流畅的文本。

了解完ChatGPT的底层逻辑后，值得注意的是，ChatGPT在生成回答的过程中，并不是从词库中选择词进行拼凑得出答案，而是一个词一个词的接连“推算”得出来的，每推算出来的词都会再次返回到输入处理中参与计算。（ChatGPT官网回复的打印效果也并不是简单的交互设计。）

ChatGPT的模型是怎么训练的

模型的训练包含三部分：模型预训练、人工参与微调、强化训练（细想一下这个过程和上学时候学习新知识的过程是一样的：预习-听讲纠错-强化练习）

模型预训练：预训练是GPT模型训练的关键环节。在预训练过程中模型使用大量的数据进行”自监督学习“，学习文本的结构和规律。

在这个过程中结合了掩码语言模型（Masked Language Model）和下一句预测（Next Sentence Prediction）等技术，以提高模型的预测能力。

模型微调：模型在预训练后并无法拥有人类的价值观，此时需要通过人工对数据标注以让模型拥有正确的价值观（避免人们在向ChatGPT提问，我是否应该自杀时得到可能的答复），同时基于大量的数据标注结果open ai也训练出一个评价答案好坏的打分模型，以替代人工标注。（此前有报道称open ai在2021年曾以每小时不到2刀的价格雇佣肯尼亚工人）

强化训练：基于已有的数据模型和打分模型，补充更多的数据，让ChatGPT强化训练，更新迭代GPT-1、GPT-2、GPT-3、GPT-4

ChatGPT1、2、3有什么区别

GPT-1数据集包含超8亿个单词级别的文本片段，具有117M个模型参数；

GPT-2数据集包含超40亿个单词级别的文本片段，具有1.5B个模型参数；

GPT-3从网上抓取的超过45 TB的文本数据，包括维基百科、新闻文章、图书、网站、论坛、博客等。具有175B个模型参数

（图片来自网络，侵删）

发表于: 2023-04-132023-04-13 22:52:22
原文链接：https://kuaibao.qq.com/s/20230413A0AJC800?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

深度解析ChatGPT底层逻辑，探秘AI模型的神奇世界，初中生也能看懂的ChatGPT基本原理

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐