前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何启用和使用ChatGPT4的详细步骤演示

如何启用和使用ChatGPT4的详细步骤演示

原创
作者头像
用户10882970
修改2023-12-18 16:24:22
1.7K0
修改2023-12-18 16:24:22
举报
文章被收录于专栏:123方法

01.

如何启用和使用ChatGPT4的详细步骤演示

1.1 理论基础——多模态涌现能力

讲到大语言模型的优势,一般首先要提到这类模型的涌现能力和思维链。这两者是大语言模型不断接近人类的关键特征

我们之所以认为GPT-4会是具有里程碑意义的一代,正是因为多模态的GPT-4会从视觉角度和视觉-文字语义融合方面涌现出更多的能力。2022-2023年,我们可以认为AI是第一次睁开双眼理解这个世界。

那么chatgpt具体怎么使用呢?

在大型语言模型(LLM)中,涌现能力(Emergent Abilities)是指模型具有从原始训练数据中自动学习并发现新的、更高层次的特征和模式的能力。就中文释义而言,涌现能力也指大语言模型涌现出来的新能力。这有点类似于去超市遇到买二赠一,赠品的质量居然还出乎意料。

与大语言模型(LLM)相比,多模态大语言模型(Multi-modal Large Language Model,MLLM)可实现更好的常识推理性能,跨模态迁移更有利于知识获取,产生更多新的能力,加速了能力的涌现。这些独立模态或跨模态新特征、能力或模式通常不是通过目的明确的编程或训练获得的,而是模型在大量多模态数据中自然而然的学习到的。

而GPT-4则针对多模态数据集,设计了对应的提示。GPT-4的提示工程涉及几个步骤,包括选择合适的模型架构和参数、设计提示格式和结构、选择合适的任务和训练数据,以及使用选定的提示和数据微调模型。更多GPT-4的提示细节还需等待OpenAI发布。

▲多模态提示示例(来源:微软)

提示工程同时也提高了语言模型“可操纵性”,即模型根据用户要求更改其行为的能力。例如,用户可以命令GPT-4以不同的风格、语气或内容特征来回答。例如“你是一个唠叨的数据专家”或“你是一个言简意赅的数据专家”来开始提示,让模型解释一个数据科学概念。这里“唠叨”和“言简意赅”操纵了模型回答的语言量。

1.4 关键技术——人类反馈强化学习

GPT-4/ChatGPT与GPT-3.5的主要区别在于,新加入了被称为RLHF(Reinforcement

Learning from Human Feedback,人类反馈强化学习)的技术。这一训练范式增强了人类对模型输出结果意向(Intent)的调节,并且对结果进行了更具理解性的排序。

OpenAI在其早期的学术报告中公开表示,与人类偏好保持一致,是许多领域人工智能研究和部署的核心组成部分。OpenAI希望通过RLHF技术,模型能倾向出高质量回答,确保模型输出对人类有益,进而保证模型的安全性。就笔者团队分析来看,RLHF也是保持多轮对话不偏离主题的关键保障。

GPT-4/ChatGPT最初引入人类标记员的主要目的是加快训练速度和质量。尽管强化学习技术在很多领域有突出表现,但是仍然存在着许多不足,例如训练收敛速度慢,训练成本高等特点。特别是现实世界中,许多任务的探索成本或数据获取成本很高。如何加快训练效率,是如今强化学习任务待解决的重要问题之一。

▲TAMER架构在强化学习中的应用

这里以TAMER(Training an Agent Manually via Evaluative Reinforcement,评估式强化人工训练代理)框架为例。该框架将人类标记员引入到模型代理(Agents)的学习循环中,可以通过人类向代理提供奖励反馈(即指导Agents进行训练),从而快速达到训练任务目标。

GPT-4的多模态奖励模型(RM)是小号的有监督精调模型(SFT),但在顶部添加了一个新的线性层来预测奖励。奖励模型的输入是原始输入加上SFT模型生成的输出。

在具体实现上,人类标记员扮演对话的用户和人工智能助手,提供多模态对话样本,让模型生成一些回复,然后标记者会对回复选项打分排名,将更好的结果反馈回模型中。代理(Agents)同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统,通过奖励策略对模型进行微调并持续迭代。

▲奖励模型的过拟合导致模型性能下降(来源:OpenAI)

因为模型仅仅从狭窄分布的训练数据中学习,所以GPT-4中奖励模型只是人类偏好的部分表征(管中窥豹),过度的训练反而可能导致奖励模型过拟合(以偏见代替整体),并导致模型训练效果的下降。另一方面,模型的人类标注员可能也无法代表用户所在地区人群的总体偏好。

1.5 安全技术——基于规则的奖励模型

安全是大模型商用的关键要素,OpenAI也投入了大量资源来提高GPT-4的安全性和一致性。包括引入领域专家进行对抗性测试和红队测试,模型辅助的安全流水线以及安全指标的改进。OpenAI引入的领域安全专家达到了50多人,覆盖AI一致性风险、网络安全、生物风险等领域。

与ChatGPT一样,GPT-4也使用了强化学习和人类反馈(RLHF)来微调模型的行为,以产生更符合用户意图的响应。但当给定不安全的输入时,模型可能会生成不良内容,例如提供有关犯罪的建议。另外,模型也可能对安全输入变得过于谨慎,拒绝无害的请求。

GPT-4的安全流水线包括两个主要部分:一组额外的安全相关RLHF训练提示,以及基于规则的奖励模型。

基于规则的奖励模型(Rule-based Reward Model,RBRM)是一组zero-shot迷你GPT-4分类器,根据预定义的规则为特定动作或事件分配奖励。在这种模型中,奖励是根据事先定义的一组规则确定的,而不是从数据中学习得到的。这些分类器在RLHF微调期间为GPT-4策略模型提供额外的奖励信号,以正确的输出行为为目标进行训练,例如拒绝生成有害内容或不拒绝无害的请求。

▲基于规则的奖励模型(来源:日本国立信息学研究所)

很多早期的NLP模型和软件就是基于规则的(包括各种早期的智能音箱/”人工智障”),但这类模型在泛化场景下表现不佳,只能回答相对固定的问题,并不具备现在的大语言模型的涌现能力。

GPT-4中使用RBRM的目的是充分借助其优势,即模型中使用的规则可以简单实用一些,建立成本低于常规奖励模型。例如,在象棋等游戏中,规则可能很简单。在更复杂的情况下,规则可能相对复杂,例如为实现特定目标或达到一定的性能水平授予奖励,但总体来说比构建奖励模型的训练数据集成本更低

规则奖励模型通常用于强化学习,其中代理被训练为采取最大化奖励信号的行动。在这种情况下,规则奖励模型基于代理是否遵循特定规则或实现特定目标,为代理分配奖励。

规则奖励模型的优点允许更多地控制学习过程。通过事先指定规则,开发人员可以引导学习过程,使其专注于特定的行为或结果。

▲基于规则的奖励模型在样本较少情况下表现出较好性能(来源:Meta AI)

基于规则的奖励模型的主要特点如下:

1、规则的可定义性:根据预先定义的规则来为模型的输出分配奖励。这些规则通常由领域专家或高质量的人类标注员制定,以确保奖励与任务目标和期望行为保持一致。

2、规则的可解释性:奖励模型依赖于明确的规则,这些一般具有较高的可读性和可解释性。以方便开发人员解读和调试模型。

3、规则的可调整性:通过修改或添加新的规则,可以相对容易地调整奖励函数,以适应不同的任务和环境或更复杂的规则。

基于规则的奖励模型也存在一些局限性,包括:

1、缺乏场景泛化能力:因为基于规则的奖励模型严重依赖于预先定义的规则,可能在未知或新的情况下泛化能力较弱,这可能导致模型在面对新的情况时出现幻觉现象或无法做出合适的应答。

2、规则设计的复杂性:例如对于复杂任务,设计适当的规则有可能非常耗时。此外,如果规则过于复杂或内部自相矛盾,可能导致模型训练不出有效的策略。

3、规则的学习效率有下降可能:由于模型需要在给定的规则集合中探索最佳策略,在规则设计不理想的情况下,基于规则的奖励模型可能导致较低的学习效率或过拟合。

1.6 优化技术——近端策略优化(PPO)算法

GPT-4/ChatGPT中的近端策略优化(Proximal Policy Optimization,PPO)算法是一种高效的强化学习优化策略算法,由OpenAI的John Schulman等人于2017年提出。在GPT-4/ChatGPT里的使用应该算是新瓶装旧酒

PPO的前辈TRPO(Trust Region Policy Optimization)相对复杂,并且与包含噪声(例如Dropout)或参数共享(在策略和价值函数之间,或辅助任务)的架构不兼容。PPO算法试图解决上述问题,以及计算复杂性和难以调整的超参数。PPO通过简化优化问题并限制策略更新的幅度,实现了更高效、更稳定的学习过程,具有实现简单、能同时处理离散\连续动作空间问题、可大规模训练等优势。

▲PPO算法与同类其他算法的比较(来源:OpenAI)

PPO算法衍生于早期的策略梯度(Policy Gradient)算法,但通过一些技巧改进了其性能和稳定性,能够处理连续动作空间的问题。PPO在策略更新时限制新策略与旧策略之间的差异,从而确保策略改进的稳定性。这通过在目标函数中引入一个“代理”目标函数来实现,该代理目标函数限制了新策略和旧策略之间的KL散度。

PPO算法的核心思想是在每次迭代中,通过一种称为近端策略优化(Proximal Policy Optimization)的方法来更新策略参数,以最大化预期收益。具体来说,PPO算法采用两个神经网络来表示模型的策略:一个执行动作(Actor),另一个处理奖励(Critic)。在每次迭代中,PPO算法会从环境中采样一批经验数据,并使用这些数据来更新策略参数和价值参数。更新的策略将被ε-clip到一个小区域,以防止可能具有不可恢复危害的巨大更新。换句话说,优化的步伐不能太大也不能过小。

PPO算法的主要特点如下:

1)裁剪的目标函数:PPO通过裁剪策略比率(新策略概率与旧策略概率之比)来限制更新幅度。这种裁剪保证了新策略在旧策略的附近,使得更新更加稳定。

2)重要度采样:PPO利用重要度采样来估计策略梯度,从而可以重复使用之前的经验来更新策略。这使得PPO在数据效率上更具优势。

3)多次更新:PPO算法在每次收集一批数据后,对策略进行多次更新。这可以提高算法的收敛速度和稳定性。

4)简化的优化问题:相比于其他方法,如TRPO,PPO算法将优化问题简化为一阶优化问题,这大大减少了计算复杂性。

1.7 安全技术——多模态幻觉检测

大型语言模型(Large Language Model,LLM)的幻觉(Hallucination)指的是模型生成的输出包含一些与输入不符合的信息,这些信息可能是错误的、无关的或者荒谬的。与人类直觉相反,随着模型变得更加以假乱真,幻觉会变得更加危险。GPT-4等模型的这种幻觉可能会出现在各种类型的任务中,比如文本生成、图文分析和问答系统等。

由于大模型(包括GPT-4)本质上可以视为训练集(人类知识/语言)的有损压缩,因此在模型运行时无法完整复现或者应答原始知识,从而模型的幻觉来自于信息压缩的偏差。多模态幻觉的本质是这种有损压缩偏差的体现,也是通过数学逼近人类语言的必然代价。(类似于压缩后的图像边缘出现不正常的条纹)。

▲大语言模型可视为知识/语言的有损压缩

幻觉包括以下几类:

1、含义相关性(Semantic Relatedness)的幻觉:模型生成的输出可能包含与输入语境无关或不相关的单词或短语,这些单词或短语通常是通过模型之前接触过的文本来学习的。

2、语义扩张(Semantic Expansion)的幻觉:模型生成的输出可能包含与输入语境相关但是过于具体或者过于抽象的内容,这些内容也可能是通过模型之前接触过的文本来学习的。

3、结构错误(Structural Errors)的幻觉:模型生成的输出可能不符合正确的语言表达或句子结构,这些错误可能是由于模型在生成时遗漏了某些信息,或者将不相关的信息结合在一起导致的。

为了降低幻觉出现的概率,改善模型质量,Meta AI提出一种幻觉内容检测机制。通过检测生成内容中的幻觉令牌/单词,对生成内容的真实度进行评估,以减少模型幻觉出现的概率。从GPT-4的幻觉减少比率来看,猜测类似该技术的方法或已应用在GPT-4中。

▲通过幻觉单词检测器减少幻觉(来源:Meta AI)

幻觉是GPT-4等大型语言模型中一个重要的问题,通过不断的优化模型和改进训练方法,或增加多模态幻觉语义检测器,研究人员可以逐步提高模型的准确性和稳定性,从而更好地满足各种自然语言处理任务的需求。

1.8 模型信息——关于模型大小

目前OpenAI还没有发布GPT-4模型大小和结构的具体信息。GPT-4的技术报告也没有透露这些技术细节,训练数据或训练方法也没有相关信息释放出来。大模型的商业化竞争正愈演愈烈。

▲Bing反馈的GPT-4模型大小

GPT-3是目前最大的知名语言模型之一,包含了1750亿(175B)个参数。在GPT-3发布之前,最大的语言模型是微软的Turing NLG模型,大小为17亿(1.7B)个参数。在GPT-3发布后不久,OpenAI团队就曾表示他们计划在未来几年内研发更大的模型。而随着技术和算法的不断发展,GPT-4模型似乎也应朝着更大的尺寸发展。

另外,GPT-4的上下文窗口尺寸也较GPT-3.5和GPT-3增大了不少。2020年发布的GPT-3模型上下文窗口为2049个令牌。在GPT-3.5中,窗口增加到4096个令牌(约3页单行英文文本)。GPT-4有两种尺寸。其中一个(GPT-4-8K)的上下文窗口大小为8192个令牌,另一个(GPT-4-32K)可以处理多达32768个令牌,大约50页文本。

有传言说GPT-4模型大概是GPT-3的100倍或1000倍。从训练的角度看,这么大的模型膨胀可能会消耗更多的训练资源和训练周期的过度延长。

▲GPT-4与GPT-3.5的执行速度对比(来源:ARK投资)

根据ARK的分析,GPT-4的执行时间大概是GPT-3.5的3.7倍。由此我们初步估算GPT-4的文本语言部分的大小大约是62B-650B之间。根据目前GPT模型性能的发展趋势,以及多模态技术的加持,预计GPT-4的模型参数大概为62B-1500B之间

02.

GPT-4的原理是什么?

GPT-4这一代,是严格意义上的多模态模型,可以支持图像和文字两类信息的同时输入。之前的ChatGPT多模态感知是实现通用人工智能的必要条件,无论是知识/能力获取还是与现实物理世界的交互。之前的ChatGPT就像AI蒙上双眼在那里盲答,而多模态就是AI一边看一边思考。多模态技术将语言模型的应用拓宽了到更多高价值领域,例如多模态人机交互、文档处理和机器人交互技术。

在GPT-4中,多模态输入的图像和文本基于Transformer作为通用接口,图形感知模块与语言模块对接进行进一步计算。通过在多模态语料库上训练模型,包括文本数据、任意交错的图像和文本,以及图像-字幕对,可以使模型获得原生支持多模态任务的能力。

下面先介绍GPT家族,然后引申到GPT-4的多模态架构和独特性。

2.1 从GPT-1到ChatGPT

说到GPT-4,就不得不提到GPT家族。GPT之前有几个的前辈,包括GPT-1、GPT-2和GPT-3和ChatGPT。GPT家族与BERT模型都是知名的NLP模型族,都基于Transformer技术。GPT-1只有12层,而到了GPT-3,则增加到96层。GPT-4增加了额外的视觉语言模块,理论上具有更大的模型尺寸和输入窗口。

▲视觉与语言Transformer技术的演进

GPT和BERT之前的时代

最早的NLP技术是基于规则的,即基于特定的规则使用程序进行固定模式的对话,所有的应答都是固定模式的。在深度学习诞生后,NLP技术逐渐进入基于模型的时代。文本生成是通过递归神经网络(RNN)或各种长短时记忆神经网络(LSTM)实现的。这些模型能够较好的进行模式识别,在输出单个单词或短语方面表现良好,但无法生成高精度的多轮对话,更无法实现逻辑推理能力。

▲GPT-1模型的Transformer结构

2018年6月,OpenAI发表了GPT-1,GPT家族首次登上历史舞台。GPT-1模型训练使用了BooksCorpus数据集。训练主要包含两个阶段:第一个阶段,先利用大量无标注的语料预训练一个语言模型,接着,在第二个阶段对预训练好的语言模型进行精调,将其迁移到各种有监督的NLP任务。也就是前面提到过的“预训练+精调”模式。

GPT-1的核心是Transformer。Transformer在数学上是大矩阵的计算,通过计算不同语义之间的关联度(概率)来生成具有最高概率的语义反馈。

GPT-1着重解决两个问题:

1)通过无监督训练解决需要大量高质量标注数据的问题。

2)通过大量语料训练解决训练任务的泛化问题。

▲BERT与GPT的技术基本架构对比(图中En为输入的每个字,Tn为输出回答的每个字)

GPT-2

2019年,OpenAI发表了另一篇关于他们最新模型GPT-2的论文(Language Models are Unsupervised Multitask Learners)。该模型开源并在一些NLP任务中开始使用。相对GPT-1,GPT-2是泛化能力更强的词向量模型,尽管并没有过多的结构创新,但是训练数据集(WebText,来自于Reddit上高赞的文章)和模型参数量更大。目前很多开源的GPT类模型是基于GPT-2进行的结构修改或优化。

GPT-3

2020年6月,OpenAI发表了另一篇关于GPT-3模型的论文(Language Models are Few-Shot Learners)。该模型的参数是GPT-2的100倍(175B),并且在更大的文本数据集(低质量的Common Crawl,高质量的WebText2,Books1,Books2和Wikipedia)上进行训练,从而获得更好的模型性能。GPT-3实际上由多个版本组成的第3代家族,具有不同数量的参数和所需的计算资源。包括专门用于代码编程的code系列。GPT-3的后继知名版本包括InstructGPT和ChatGPT。

▲GPT-3家族

GPT-3.5/ChatGPT

2022年3月15日,OpenAI发布了名为“text-davinci-003”的新版GPT-3,该模型被描述为比以前版本的GPT更强大。目前有若干个属于GPT-3.5系列的模型分支,其中code-davinci针对代码完成任务进行了优化。

ChatGPT是基于GPT-3.5(Generative Pre-trained Transformer 3.5)架构开发的对话AI模型,是InstructGPT的兄弟模型。ChatGPT很可能是OpenAI在GPT-4正式推出之前的演练,或用于收集大量对话数据

OpenAI使用RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)技术对ChatGPT进行了训练,且加入了更多人工监督进行微调。

ChatGPT具有以下特征:

1)可以主动承认自身错误。若用户指出其错误,模型会听取意见并优化答案。

2)ChatGPT可以质疑不正确的问题。例如被询问“哥伦布2015年来到美国的情景”的问题时,机器人会说明哥伦布不属于这一时代并调整输出结果。

3)ChatGPT可以承认自身的无知,承认对专业技术的不了解。

4)支持连续多轮对话。

与大家在生活中用到的各类智能音箱和“人工智障”不同,ChatGPT在对话过程中会记忆先前使用者的对话讯息,即上下文理解,以回答某些假设性的问题。ChatGPT可实现连续对话,极大的提升了对话交互模式下的用户体验。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01.
  • 如何启用和使用ChatGPT4的详细步骤演示
  • 02.
  • GPT-4的原理是什么?
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档