首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

当前,怎样理解 ChatGPT 技术先进性?

1 ChatGPT 的技术是怎样进化来的?

ChatGPT 所能实现的人类意图,来自于机器学习、神经网络以及 Transformer 模型的多种技术模型积累。

2 为什么说 ChatGPT 应用 Transformer 标志着基础模型时代的开始?

转移学习(Transfer Learning)使基础模型成为可能。技术层面上,基础模型通过转移学习(Transfer Learning)(Thrun 1998)和规模(scale)得以实现。转移学习的思想是将从一项任务中学习到的“知识”(例如,图像中的对象识别)应用于另一项任务(例如,视频中

的活动识别)。在深度学习中,预训练又是转移学习的主要方法在替代任务上训练模型(通常只是达到目的的一种手段),然后通过微调来活应感兴趣的下游任务。转移学习(TransferLearning)使基础模型成为可能。

大规模化(scale)使基础模型更强大,因而 GPT 模型得以形成。大规模需要三个要素:

3Transformer 针对不同场景的技术原理有哪些?

Transformer 实现的不同技术场景对应的不同技术原理。

Transformer 架构可分为自回归系列(例如 GPT-3,偏好生成性任务)、双向 Transformer+Mask 的自编码系列(例如 BERT 偏好自然语言理解)、Encoder-decoder 架构(例如 T5,使用双向/单向 attention,偏好条件文本生成)

4 GPT-1 能做什么?进行无监督训练和有监督微调。

借助预训练,进行无监督训练和有监督微调。GPT-1 模型基于 Transformer 解除了顺序关联和依赖性的前提,采用生成式模型方式,重点考虑了从原始文本中有效学习的能力,这对于减轻自然语言处理(NLP)中对监督学习的依赖至关重要。 GPT(Generative Pre-training

Transformer)于 2018 年 6 月由 OpenAl 首次提出。GPT 模型考虑到在自然语言理解中有大量不同的任务,尽管大量的未标记文本语料库非常丰富,但用于学习这些特定任务的标记数据却很少,这使得经过区分训练的模型很难充分执行。同时,大多数深度学习方法需要大量手动标记的数据,这限制了它们在许多缺少注释资源的领域的适用性;在考虑以上局限性的前提下,GPT 论文中证明,通过对未标记文本的不同语料库进行语言模型的生成性预训练,然后对每个特定任务进行区分性微调,可以实现这些任务上的巨大收益。和之前方法不同,GPT在微调期间使用任务感知输入转换,以实现有效的传输同时对模型架构的更改最小。

模型更简化、计算加速,更适合自然语言生成任务(NLG)。GPT 相比于 Transformer 等模型进行了显著简化。相比于 Transformer,GPT 训练了一个 12 层仅 decoder 的解码器(原Transformer 模型中包含 Encoder 和 Decoder 两部分)。相比于 Google 的 BERT(Bidirectional Encoder Representations from Transformers,双向编码生成 Transformer), GPT 仅采用上文预测单词(BERT 采用了基于上下文双向的预测手段)。

5 GPT-2 能做什么?

GPT-2:采用多任务系统,基于 GPT-1 进行优化。GPT-2 在 GPT-1 的基础上进行诸多改进,实现执行任务多样性,开始学习在不需要明确监督的情况下执行数量惊人的任务。在 GPT-2阶段,OpenAl 去掉了 GPT-1 阶段的有监督微调(fine-tuning),成为无监督模型。大模型 GPT-2 是一个 1.5B 参数的 Transformer,在其相关论文中它在 8 个测试语言建模数据集中的 7 个数据集上实现了当时最先进的结果。模型中,Transfomer 堆叠至 48 层。GPT-2 的数据集增加到8 million 的网页、大小 40GB 的文本。

GPT-2 仍未解决应用中的诸多瓶颈。GPT-2 聚焦在无监督、zero-shot(零次学习)上,然而 GPT-2 训练结果也有不达预期之处,所存在的问题也亟待优化。在 GPT-2 阶段,尽管体系结构是任务无关的,但仍然需要任务特定的数据集和任务特定的微调;要在所需任务上实现强大的性能,通常需要对特定于该任务的数干到数十万个示例的数据集进行微调。

6 GPT-3 有了哪些突破?

GPT-3 取得突破性进展,任务结果难以与人类作品区分开来。GPT-3 对 GPT-2 追求无监督与零次学习的特征进行了改进 GPT-3 利用了过滤前 45TB 的压缩文本,在诸多 NLP 数据集中实现了强大性能。 GPT-3 是一个具有 1750 亿个参数的自回归语言模型,比之前的任何非稀疏语言模型多 10 倍。对于所有任务(在 few-shot 设置下测试其性能),GPT-3 都是在没有任何梯度更新或微调的情况下应用的,仅通过与模型的文本交互来指定任务和 few-shot 演示。

GPT-3 在许多 NLP 数据集上都有很强的性能(包括翻译、问题解答和完形填空任务),以及一些需要动态推理或领域适应的任务(如解译单词、在句子中使用一个新单词或执行三位数算术)。GPT-3 可以生成新闻文章样本(已很难将其与人类撰写的文章区分开来)。

InstructGPT 又是什么?与 GPT-3 有什么区别?

InstructGPT 模型在 GPT-3 基础上进一步强化。InstructGPT 使用来自人类反馈的强化学习方案 RLHF (reinforcement learning from human feedback) ,通过对大语言模型进行微调,从而能够在参数减少的情况下,实现优于 GPT-3 的功能InstructGPT 提出的背景:使语言模型更大并不意味着它们能够更好地遵循用户的意图,例如

大型语言模型可以生成不真实、有毒或对用户毫无帮助的输出,即这些模型与其用户不一致。

另外,GPT-3 虽然选择了少样本学习(few-shot)和继续坚持了 GPT-2 的无监督学习,但基于few-shot 的效果,其稍逊于监督微调(fine-tuning)的方式。基于以上背景,OpenAl 在 GPT-3 基础上根据人类反馈的强化学习方案 RHLF,训练出奖励模型(reward model)去训练学习模型(即:用 Al 训练 Al 的思路)。InstructGPT 的训练步骤为:对 GPT-3 监督微调——训练奖励模型(reward model)——增强学习优化 SFT(第二、第三步可以迭代循环多次)

7ChatGPT 核心优势是什么?

ChatGPT 核心技术优势是提升了理解人类思维的准确性。InstructGPT 与 ChatGPT 属于相同代际的模型,ChatGPT 只是在 InstructGPT 的基础上增加了 Chat 属性,且开放了公众测试ChatGPT 提升了理解人类思维的准确性的原因在于利用了基于人类反馈数据的系统进行模型训练

8ChatGPT 采用的什么样的范式?

ChatGPT 得益于通用(基础)模型所构建 Al 系统的新范式。基础模型(Foundation Model)

在广泛的应用中整合构建机器学习系统的方法,它为许多任务提供了强大的杠杆作用;基础模型是在深度神经网络和自我监督学习的基础上演化而来。基础模型基于广泛数据(通常使用大规模自我监督)训练的任何模型,可以适应(例如微调)广泛的下游任务,目前例子包括 BERT(Devlin et al.)、GPT-3(Brown et al.2020)和 CLIP(Radford et al.2021);机器学习使学习算法同质化(例如,逻辑回归),深度学习使模型架构同质化(如卷积神经网络),而基础模型使模型本身同质化(比如 GPT-3)。

9ChatGPT 会在哪些领域中进行应用?

ChatGPT 以基础模型为杠杆,可适用多类下游任务。ChatGPT 采用了 GPT3.5(InstructGPT)

大规模预训练模型,在自然语言理解和作品生成上取得极大性能提升。

鉴于传统 NLP 技术的局限问题,基于大语言模型(LLM)有助于充分利。用海量无标注文本预训练,从而文本大模型在较小的数据集和零数据集场景下可以有较好的理解和生成能力。基于大模型的无标准文本书收集,ChatGPT 得以在情感分析、信息钻取、理解阅读等文本场景中优势突出。

随着训练模型数据量的增加,数据种类逐步丰富,模型规模以及参数量的增加,会进一步促进模型语义理解能力以及抽象学习能力的极大提升,实现 ChatGPT 的数据飞轮效应(用更多数据可以训练出更好的模型,吸引更多用户,从而产生更多用户数据用于训练,形成良性循环)。

研究发现,每增加参数都带来了文本合成和/或下游 NLP 任务的改进有证据表明,日志丢失与许多下游任务密切相关,随着规模的增长,日志丢失呈现平稳的改善趋势。

10 大模型架构产生的根本原因是什么?

ChatGPT 大模型架构也是 ML 发展到第三阶段的必然产物。ML 中的计算历史分为三个时代:前深度学习时代、深度学习时代和大规模时代。在大规模时代,训练高级 ML 系统的需求快速增长√ 计算、数据和算法的进步是指导现代机器学习(ML)进步的三个基本因素。在 2010年之前,训练计算的增长符合摩尔定律,大约每 20 个月翻一番,自 2010 年代早期深度学习(Deep Learning)问世以来,训练计算的规模已经加快,大约每 6 个月翻一番。2015 年末,随着公司开发大规模 ML 模型,训练计算需求增加 10 至 100 倍,出现了一种新趋势——训练高级 ML 系统的需求快速增长。

√ 2015-2016年左右,出现了大规模模型的新趋势。这一新趋势始于2015年末的AlphaGo,并持续至今(GPT-3 于 2020 年出现)。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230616A0AZVB00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券