一文速通ChatGPT模型架构与简介

原创

fanstuck

发布于 2025-09-08 15:14:42

570

前言

如果你一直在跟着Fanstuck博主的脚步探索AI大模型的相关内容，从最初的大模型Prompt工程解析，DeepSeek全面解析，到实际的私有化大模型开发部署，再到深入NL2SQL、知识图谱大模型和ChatBI等更高阶应用.我是Fanstuck，致力于将复杂的技术知识以易懂的方式传递给读者，热衷于分享最新的行业动向和技术趋势。如果你对大模型的创新应用、AI技术发展以及实际落地实践感兴趣，那么请关注Fanstuck。

一、基础概念

GPT，全称为 “Generative Pre-trained Transformer”（生成式预训练 Transformer），是由人工智能研究机构 OpenAI 提出的基于 Transformer 架构的预训练生成模型，也是当前自然语言处理（NLP）领域极具影响力的基础模型之一。其核心定位是 “通用语言模型”—— 区别于传统针对单一任务（如仅做翻译或仅做摘要）设计的专用模型，GPT 具备跨场景的语言理解与生成能力，可灵活适配多种自然语言处理任务，无需为每个任务单独进行大规模重构。

从技术原理来看，GPT 的核心优势源于 “预训练 + 微调” 的双层模式：首先，模型会在海量的公开文本数据（涵盖书籍、网页、论文、新闻等多种体裁）中进行无监督预训练，这个过程中，模型会自主学习语言的底层逻辑 —— 包括字词的搭配规律、语法结构的完整性、语义表达的关联性，甚至是常识性知识与逻辑推理模式。通过这种大规模数据的 “浸泡式学习”，GPT 能构建起一套通用的语言认知体系，为后续任务奠定基础。

在实际应用场景中，GPT 的通用性得到充分体现，可覆盖多种核心 NLP 任务：

文本生成：能够根据给定的主题、风格或开头，生成逻辑连贯、内容丰富的文本，如小说片段、产品文案、代码注释等；
问答系统：针对用户提出的问题，可从自身学习的知识中提取关键信息，给出准确且条理清晰的回答；
机器翻译：支持多语言之间的转换，且能较好地保留原文的语义与情感色彩，避免生硬的 “直译感”；
文本摘要：可对长文本（如长篇报告、新闻稿）进行提炼，自动生成简洁的摘要，保留核心观点与关键数据。

在理解 GPT 与 ChatGPT 的基础定位后，进一步拆解其底层技术框架，能更清晰地把握模型的能力来源。以下从 Transformer 架构、自注意力机制、预训练与微调流程，以及少样本 / 零样本学习等关键技术概念展开，结合模型演进过程说明其核心价值。

(1).Transformer架构

Transformer 并非为 GPT 专属设计，而是一种用于高效处理序列数据的深度学习模型架构，如今已成为自然语言处理（NLP）、语音识别、计算机视觉等多领域的核心基础。它最早由 Google 团队的 Vaswani 等人在 2017 年发表的论文《Attention is All You Need》中提出，彻底改变了传统序列模型的设计思路，直接推动了 GPT、BERT 等新一代大语言模型的诞生。

在 Transformer 出现前，NLP 领域的主流序列模型是循环神经网络（RNN） 及其改进版长短期记忆网络（LSTM）。这类模型采用 “序列化计算” 方式：处理文本时需从第一个词开始，逐个向后计算，前一个词的结果会直接影响后一个词的处理。这种结构存在两大核心问题：

长序列处理能力弱：当文本长度超过一定限度（如数百个词），LSTM 对 “早期信息” 的记忆会逐渐衰减，难以捕捉长距离依赖关系（例如一篇文章中，开头提到的 “小明” 与结尾提到的 “他” 的关联）；
计算效率低：由于需逐词串行计算，无法对文本序列进行并行处理，导致模型训练速度慢，难以支撑大规模数据的学习需求。

Transformer 的出现正是为了突破这一局限。它摒弃了 RNN 的串行结构，基于 “自注意力机制” 实现了序列数据的并行化计算—— 处理文本时，模型可同时关注序列中的所有词，无需等待前一个词计算完成。这一设计不仅让长序列的依赖关系捕捉更精准（能直接计算任意两个词的关联），还将训练效率提升了数倍，为后续 GPT 等模型 “消化” 海量数据奠定了技术基础。

GPT 本质是 “基于 Transformer 解码器的生成式模型”。Transformer 架构本身包含 “编码器（Encoder）” 和 “解码器（Decoder）” 两部分：编码器负责 “理解” 文本（如 BERT 用编码器做文本分类），解码器负责 “生成” 文本。而 GPT 仅保留了解码器部分，通过解码器的 “自回归生成” 能力（根据前一个词预测下一个词），实现文本生成、对话互动等核心功能，是 Transformer 架构在 “生成任务” 上的典型应用。

(2).Self-Attention 机制

Self-Attention（自注意力机制）是 Transformer 架构的灵魂，也是模型能 “理解” 文本语义关联的关键。其核心逻辑可概括为：让序列中的每个元素 “主动关注” 其他元素，通过计算相似度确定关注权重，最终形成包含全局信息的特征表示。

通俗理解：像人类读句子一样 “抓重点”：

以句子 “小明带着书包去学校，他在路上买了一支笔” 为例，人类阅读时会自然知道 “他” 指代 “小明”，“一支笔” 是 “他” 的动作对象。自注意力机制正是模拟了这一过程：

为每个词（如 “他”）生成三个向量：Query（查询向量，代表 “我要找什么信息”）、Key（键向量，代表 “我能提供什么信息”）、Value（值向量，代表 “我本身的信息”）；
计算 “他” 的 Query 与其他所有词（小明、书包、学校、笔等）的 Key 之间的相似度（即 “注意力分数”），分数越高，说明两者关联越紧密；
对注意力分数进行归一化处理（如用 Softmax 函数），确保权重总和为 1；
用归一化后的权重对每个词的 Value 进行加权求和，得到 “他” 的最终特征向量 —— 这个向量中，“小明” 的信息权重最高，“笔” 的权重较低，从而让模型明确 “他” 的指代对象。

通过这一过程，每个词都能整合序列中的全局信息，避免了传统 RNN“只见局部、不见全局” 的问题。

(3).预训练和微调

“预训练 + 微调” 是 GPT 系列模型的核心学习范式，本质是先通过海量数据学习通用能力，再通过少量数据适配具体任务，相当于 “先上通识课，再上专业课”。

预训练是模型的 “基础学习阶段”，核心特点是：

数据规模大：使用无标注的海量公开文本（如维基百科、互联网网页、书籍等），数据量通常以 TB 为单位；
任务目标简单：主要通过 “自回归预测” 任务学习语言规律 —— 给定前文，预测下一个词是什么。例如给模型 “今天天气很______”，让它预测 “好”“热”“冷” 等合理词汇；
学习成果通用：通过这一过程，模型能掌握字词搭配、语法规则、常识知识（如 “夏天热、冬天冷”）、逻辑推理（如 “因为下雨，所以要带伞”）等通用语言能力，形成一套可迁移的 “语言认知体系”。

微调是模型的 “专项提升阶段”，目的是让预训练好的通用模型适应特定任务，具体流程为：

准备少量 “任务特定的标注数据”（如做 “情感分析” 任务，就准备带 “正面 / 负面” 标签的句子）；
在预训练模型的基础上，添加少量针对任务的输出层（如情感分析的 “二分类输出层”）；
用标注数据继续训练模型，微调模型参数 —— 此时仅需少量数据和较短训练时间，就能让模型在特定任务上表现出色。

不同代际的 GPT 模型，对 “预训练” 和 “微调” 的依赖程度差异显著：

GPT-1 与 GPT-2：高度依赖微调。这两代模型的预训练仅能提供基础语言能力，要完成具体任务（如问答、翻译），必须进行针对性微调，否则性能较差；
GPT-3 及之后版本：弱化微调，强化预训练。GPT-3 首次将预训练数据量和模型参数规模提升到 “千亿级”，使其在预训练阶段就掌握了极强的通用能力。后续任务中，无需修改模型参数，仅通过 “提示词（Prompt）” 提供少量示例（甚至不提供示例），就能完成任务，极大降低了模型的应用门槛。

(4)少样本学习(Few-shot Learning)

少样本学习是指模型在仅有少量任务特定数据时，也能表现出较强的任务完成能力。GPT-3 及其之后的版本的少样本学习能力极大地扩展了其应用范围，因为它不需要大量标注数据来执行新任务。

以 “邮件分类” 任务为例：

传统模型（如 GPT-2）需要数百甚至数千封带 “工作 / 生活” 标签的邮件才能训练；
GPT-3 仅需提供 3 个示例（如 “邮件 1：讨论项目进度 → 工作邮件；邮件 2：邀请聚餐 → 生活邮件；邮件 3：汇报工作总结 → 工作邮件”），就能准确分类新的邮件。

这种能力的核心价值在于：降低对标注数据的依赖。许多场景下（如小众领域的专业任务），标注数据稀缺且获取成本高，少样本学习让模型无需大量标注就能快速适配，极大扩展了应用范围。

GPT 之所以能实现少样本学习，本质是预训练阶段积累的 “通用知识” 足够丰富：模型在预训练时见过大量类似 “分类”“匹配”“生成” 的语言模式，当遇到新任务时，仅需通过少量示例 “唤醒” 相关模式，就能快速理解任务需求。例如少样本做 “翻译” 时，给出 “英语：apple → 中文：苹果” 的示例，模型会立刻回忆起预训练中学习的 “语言对应关系”，进而完成其他单词的翻译。

(5)零样本学习(Zero-shot Learning)

零样本学习更进一步，意味着模型在没有任何任务特定示例的情况下，依然能够通过推理和上文进行任务完成。 GPT-3 及其之后的版本在许多零样本任务中表现出色，例如机器翻译和问答。

例如让 GPT-3 完成 “将‘人工智能改变世界’翻译成法语” 的任务，无需提供任何 “中英法对照示例”，仅需用自然语言说明 “请将这句话翻译成法语”，模型就能输出正确结果 “L'intelligence artificielle change le monde”。

再如 “判断句子‘这部电影情节拖沓，演员演技差’的情感倾向”，无需提供 “正面 / 负面” 示例，仅说明 “请分析这句话的情感是正面还是负面”，模型就能准确判断为 “负面”。

二、构架和细节

GPT 的技术构架和实现细节是其在自然语言处理任务中表现优异的核心原因。它不仅基于 Transformer 架构，还通过自回归方法和巨大的参数规模，展现了强大的语言生成和理解能力。GPT-3 及其之后的版本的构架和训练设计也是推动其成为少样本学习(Few-shot Learning)和零样本学习(Zero-shot Learning)领域标志性模型的关键因素。以下章节将深入探讨 GPT 的模型结构、参数设计、训练过程和各类应用细节。

2.1Transformer架构

GPT 是基于 Transformer 解码器的自回归语言模型,而 Transformer 本身是近年来自然语言处理领域的核心架构。首先，我们回顾一下 Transformer 的基本原理，然后探讨 GPT如何在此基础上扩展与优化。

2.1.1 Transformer 简介

Transformer 是由 Vaswani 等人在 2017 年提出的神经网络架构，最初是为了提高机器翻译任务中的性能。它不同于传统的循环神经网络(RNN)和卷积神经网络(CNN)，不依赖于递归结构，而是通过自注意力机制(Self-Attention Mechanism)直接捕捉序列中的依赖关系。Transformer 的核心优势在于，它可以并行处理输入数据，极大地提高了计算效率，同时能更好地处理长程依赖关系。Transformer 由两部分组成:编码器(Encoder)和解码器(Decoder)。编码器负责将输入文本转化为高维度的向量表示，解码器则通过这些表示生成输出文本。在 GPT中，模型只使用了 Transformer 的解码器部分，因为其任务主要是基于上文生成文本。

下图为tansformer架构图：

2.1.2 自注意力机制

自注意力机制是 Transformer 的核心创新，它允许模型在处理当前单词时，能够根据整个序列中的其他单词调整其权重。自注意力机制通过计算每个词与其他词的相似性(通过点积操作)，来决定该词对当前生成的影响程度。这一机制帮助 Transformer 模型解决了序列处理中的长程依赖问题，从而能够更好地捕捉语义信息。GPT 作为自回归模型，利用自注意力机制在每一步生成时，综合考虑之前生成的所有单词。这种机制为其生成的文本提供了高度的连贯性和一致性，尤其在长文本生成任务中表现尤为出色。

2.2 GPT 的自回归生成

GPT 是自回归模型，即模型通过预测输入序列中的下一个单词逐步生成整个序列。自回归模型的优势在于，它能够根据之前生成的内容进行实时调整,使得生成的文本更加连贯。以下以 GPT和 BERT的预训练原理为例子,即 MLM(Mask Language Model)+NSP(Next Sentence Prediction):

2.2.1 自回归生成过程

GPT的自回归生成过程分为以下几个步骤:

(1)输入Embeding:首先，将输入文本通过 Embeding 层转化为固定长度的向量表示。这些向量保留了文本的词汇、语法和语义信息，为后续的生成奠定基础。

(2)注意力计算:模型通过自注意力机制计算每个单词与其他单词之间的相似性。具体来说，GPT 会为每个输入单词生成一个查询向量(Query)、键向量(Key)和值向量 (Value)，然后通过点积操作计算这些向量之间的相似性分数。高相似性分数的词对当前词的生成贡献较大，反之则贡献较小。(3)生成下一个单词:根据自注意力机制计算出的权重，模型综合所有输入词的向量信息，生成下一个单词的概率分布。模型从这个概率分布中选择最合适的单词，作为生成序列的下一个词。

(4)重复生成:模型重复上述过程，依次生成序列中的每个单词，直到完成整个输出序列。

2.2.2 自回归生成的优势

(1)动态调整:GPT-3 可以根据已经生成的文本实时调整其生成策略。这意味着每生成一个新单词，模型都会重新计算上文，从而确保后续生成的文本与之前的文本一致且连贯。

(2)灵活性强:自回归生成的另一个优势在于它的灵活性。模型不需要预先知道输出序列的长度，而是根据任务的需求动态生成文本。这使得 GPT-3 在处理不定长度的任务时(如对话生成、文章写作)非常有效。

(3)计算复杂度的相对优势下图为比较卷积神经网络(填充词元被忽略)、循环神经网络和自注意力三种架构的示意图：

这里的示例任务是将由n个词元组成的序列映射到另一个长度相等的序列，其中的每个输入词元或输出词元都由 d维向量表示。

计算复杂性是衡量算法在最坏情况下所需资源(如时间和空间)的函数。它通常用大 0 符号表示，反映算法随着输入规模增加时的增长速度。复杂度低意味着消耗低，计算速度快，

考虑一个卷积核大小为k的卷积层。由于序列长度是n，输入和输出的通道数量都是d，所以卷积层的计算复杂度为 O(knd^2)。

当更新循环神经网络的隐状态时，dxd权重矩阵和d维隐状态的乘法计算复杂度为 O(d?)。由于序列长度为 n，因此循环神经网络层的计算复杂度为 O(nd^{2})。

在自注意力中，查询、键和值都是nxd矩阵。考虑缩放点积注意力(缩放点积注意力是通过计算查询和键的点积然后除以缩放因子，得到加权的值，以此衡量重要性并进行加权求和)，其中 nxd矩阵乘以dxn矩阵。之后输出的 nxn 矩阵乘以 nxd 矩阵。因此，自注意力具有 O(n'd)计算复杂性。

当向量维度d较大的时候，自注意力机制有较大优势。实际上从 GPT3 开始，向量维度都在一万以上，这也导致在n不是太大的时候，自注意力机制比其他两个算法速度更快。

(4)并行计算能力强

顺序操作是指在程序执行中，操作按顺序依次进行，每一步的执行必须等待前一步完成。顺序操作会妨碍并行计算不依赖顺序操作的结构并行计算能力强。卷积神经网络是分层的，同一层有 O(1)个顺序操作，不同层之间存在依赖，并行计算能力较强。

循环神经网络存在强依赖关系，有O(n)个顺序操作，并行计算能力最差.

自注意力机制每个词元都通过自注意力直接连接到任何其他词元，因此，有 O(1)个顺序操作可以并行计算。并行计算能力最强。

2.2.3 自回归生成的挑战

尽管自回归生成有很多优点，但也存在一些挑战:

(1)生成速度较慢:由于自回归生成每次只能生成一个词，这使得生成速度相对较慢。尤其在长文本生成任务中模型需要多次迭代才能完成整个文本的生成，耗时较长。

(2)上下文记忆问题:虽然自注意力机制帮助模型捕捉长程依赖，但随着文本长度增加，模型的记忆能力也会逐渐减弱，可能导致上下文不一致的问题。在长文本生成中，GPT 有时会重复或者偏离主题。

2.3 GPT 的参数设计与规模

GPT 之所以在少样本学习中表现卓越，除了其架构设计外，参数规模也是决定性因素。根据目前的信息，GPT-1有1.1亿个参数，GPT-2有15 亿个参数，GPT-3有1750亿个参数，GPT-4有数千亿个参数。如此庞大的参数规模使得 GPT能够捕捉到极其丰富的语言模式和知识，从而在处理各类任务时表现出色。

2.3.1 参数分布

GPT-1，GPT-2和 GPT-3 的参数信息是公开的，GPT-3.5 之后的版本的参数信息是保密的，我们这里详细介绍一下 GPT-3 已经公开的信息，也就是目前已知的 GPT 参数的最新的信息。GPT-3 的参数主要分布在三个部分:

层数:GPT-3 包含 96 层 Transformer 解码器层，比 GPT-2 的 24 层大幅增加。这些额外的层数为模型提供了更深的表征能力，使得它能够处理更复杂的语义和句法结构。

隐藏单元:GPT-3 每层 Transformer 包含 12288 个隐藏单元(hidden units)，相比之下，GPT-2 只有 3072个隐藏单元。更多的隐藏单元意味着模型能够存储和处理更多的上文信息，从而提高其理解和生成能力。

注意力头数:GPT-3 每一层包含 96 个注意力头，而 GPT-2 仅有 12 个。这些额外的注意力头帮助模型在更大范围内捕捉到输入文本中的依赖关系，从而提高生成文本的质量。

2.3.2 模型规模对性能的影响

GPT的巨大参数规模是其在少样本和零样本任务中表现出色的关键原因之一。更大的参数量允许模型在预训练期间学习到更加细致的语言模式和知识表示。在 GPT的训练过程中，模型暴露于更大规模和多样化的数据，能够更好地泛化到未见过的任务和领域。

然而，庞大的参数量也带来了巨大的计算和存储开销。GPT的训练需要大量的计算资源，并且在实际部署中，其推理时间也相对较长。此外，大规模模型往往容易出现过拟合问题，需要通过适当的正则化技术来缓解。

2.4 GPT-3 及其之后的版本的训练

GPT-3 及其之后的版本通过无监督预训练在大量文本数据上学习语言模式。无监督学习的优点在于它不需要标注数据，能够从大规模的互联网文本中学习到通用的语言表示。以下是 GPT-3 及其之后的版本预训练的核心步骤

2.4.1 数据集规模与多样性

GPT-3 的训练数据集覆盖了海量的文本数据，总计约 570GB，之后的版本的信息是保密的，预测其数据量将超过1000GB。训练数据主要来源于以下几类:

(1)Common Crawl 数据集:这是一个包含数万亿词语的网络抓取数据集，提供了 GPT-3 及其之后的版本训练所需的绝大多数互联网文本。

(2)维基百科:维基百科是 GPT-3 及其之后的版本训练数据中的重要组成部分。其高质量和结构化的文本为模型提供了丰富的背景知识。

(3)书籍语料库:为了让模型能够掌握更复杂的语言表达和叙述结构，GPT-3 及其之后的版本的训练数据还包含了一些公开的书籍数据集。这些数据对生成长篇文本和复杂句法结构非常有用。

(4)新闻文章:新闻类数据帮助 GPT-3 及其之后的版本理解时事、社交热点和各种各样的新闻风格。通过这些数据，模型能够生成与当前事件相关的文本内容。

2.4.2训练过程

(1)无监督预训练过程

海量数据进行训练，以千帆大模型平台为例，Post-pretrain 采用的是泛文本无标注的数据集，且数据集必须达到一定规模。以 WuDaoCorporaText 数据集为例，采用 20 多种规则从 100TB 原始网页数据中清洗得到，包含教育、科技等 50+个行业数据

(2)SFT过程

有监督微调所需要的标注好的数据集，可以理解为 QA 对，有多种 SFT技巧和方式，如图:

(3).RLHF RLHF(Reinforcement Learning from Human Feedback)，即“强化学习与人类反馈”，是一种结合强化学习(Reinforcement Learning,RL)和人类评估反馈的训练方法。在传统的强化学习中，代理(Agent)通过与环境的交互来最大化某种奖励信号。与之不同，RLHF 将人类的反馈引入到学习过程中，目的是使模型能够更好地理解和符合人类的需求与价值观。

RLHF 的过程可以分为几个主要步骤:

初始训练:首先，使用传统的监督学习或无监督学习方法训练一个基础模型。这个模型可能尚未具备理想的生成质量或行为表现。

人类反馈收集:生成的内容或行为会被展示给人类评审员进行评分和反馈。评审员通常会根据输出的质量、准确性可读性或与预期目标的一致性进行评价。例如，在对话系统中，人类可能会评价系统回答的相关性、流畅性等。

奖励建模:人类的反馈会被用来训练一个奖励模型，该模型可以自动化地评估未来生成的内容。奖励模型通常会根据人类反馈建立奖励函数，模拟人类对模型行为的偏好。

强化学习优化:使用奖励模型作为反馈信号，基于强化学习方法对模型进行优化。具体来说，模型通过与环境(即任务或交互系统)的不断迭代学习，调整其策略，使得生成的内容最大化人类期望的奖励。

迭代过程:这个过程是一个循环，模型通过强化学习不断改进，直到生成的内容能持续满足人类的标准和需求。每一次人类反馈都会使奖励模型更加精准，进而推动生成模型朝着更符合预期的方向优化。

2.4.3 训练技术与优化

由于 GPT-3 及其之后的版本的参数规模极大，传统的训练技术在计算资源上无法满足需求。为了解决这一问题GPT-3 及其之后的版本的训练过程中采用了以下几种优化技术:

(1)混合精度训练:混合精度训练是指在模型训练过程中使用半精度(16 位浮点数)部分代替标准的全精度(32位浮点数)进行计算。这样可以减少计算资源的占用，同时提高训练速度。在不影响精度的前提下，GPT-3 及其之后的版本通过混合精度训练大幅降低了硬件需求。

(2)模型#行化:在 GPT-3 及其之后的版本的训练过程中,主要采用了模型并行化和数据并行化两种并行化技术.。模型并行化通过将模型的不同部分分布到多个 GPU上运行，减少了单个 GPU 的内存负担，特别是对于那些非常大的模型层或参数，这样可以使得训练能够在多个 GPU 上协同完成。与此同时，数据并行化则是将大规模的数据集分割成多个子集，并将这些子集分配到不同的 GPU 上，每个 GPU 独立计算其数据子集的梯度，然后汇总更新模型的权重。两者结合，显著提升了 GPT-3 及其之后的版本的训练效率和计算资源的利用率.

(3)稀疏激活:稀疏激活是一种在前向传播和反向传播过程中,仅激活一部分神经元的技术。通过这种方式,GPT-3及其之后的版本在保证模型性能的前提下，减少了训练过程中计算和内存的开销。

2.5 prompt 工程

GPT-3 最大的创新点之一是其少样本和零样本学习能力。传统的深度学习模型通常需要大量标注数据进行任务特定的训练，而 GPT-3 则在未见过任务或仅有少量任务示例的情况下，依然能够完成多种 NLP 任务。

(1)少量样本(Few-Shot):研究中使用“少量样本”这一术语来指代在推理时给定几个任务示例作为条件放入 prompt 中，但不更新权重。此方法一般用于场景描述较为复杂(即自然语言无法描述清楚)且多任务的情况;(2)单一样本(One-shot):与少量样本相同，除了仅允许一个示例外，还包括任务的自然语言描述。单一样本一般描述场景问题较复杂但任务较单一的情况;

(3)零样本学习(Zero-Shot): 与单样本学习类似，但不同之处在于不提供任何示例，模型仅依赖自然语言描述来理解和执行任务。这种方法一般用于自然语言能轻易描述清楚具体场景和任务的情况;零样本学习在某些场景下最接近人类完成任务的方式。例如在翻译任务中，人类很可能仅通过文本说明就能理解任务要求并进行操作。

随后，GPT团队对多种任务进行了测试，均取得了不错的成果，

随后，GPT团队对多种任务进行了测试，均取得了不错的成果，

可以看到三种模式运用 GPT-3 中的成果，其最大版本的数据和模型规模比 GPT-2 大约大两个数量级。GPT-3 使用与其直接前身 GPT-2 相同的 Transformer 解码器架构，只是交替层的注意力模式更加稀疏。GPT-3 在 3000亿个标记上进行了预训练，随着模型规模的增大，其表现得到了提升，其中few-shot 的表现提升最为显著。