首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

GPT-4 来了

多模态AI模型可以处理图像和文本,还能通过律师资格考试。

2023年3月15日,OpenAI在发布了GPT-4,这个大型多模态模型可以接受文本和图像输入。

据OpenAI声称,返回的文本输出“在各种专业和学术基准测试中的表现与人类相当”。

微软在同一天宣布必应聊天(Bing Chat)就一直在GPT-4上运行。

如果GPT-4的表现真如宣称的那么出色,这可能代表着AI从此开启新时代。

OpenAI在宣布时声称:“它通过了模拟律师资格考试,成绩在考试者中处于前10%的名次。相比之下,GPT-3.5的成绩处于后10%的名次。”

OpenAI计划通过ChatGPT及其商业API发布GPT-4的文本功能,但首先会有一份等候者名单。GPT-4目前可供ChatGPT Plus的用户使用。此外,该公司正在与单单一家合作伙伴Be My Eyes测试GPT-4的图像输入功能,一款即将推出的智能手机应用程序可以识别并描述场景。

除了介绍性网站外,OpenAI还发布了一篇《GTP-4技术报告》,描述了GPT-4的功能。

并发布了详细描述GPT-4局限性的系统模型卡。

GPT的全称是“生成式预训练转换器”,GPT-4是一系列基础语言模型的一部分,这些模型可以追溯到2018年的第一代GPT。继这个第一代版本之后,OpenAI在2019年宣布了GPT-2,在2020年宣布了GPT-3。进一步改进版GPT-3.5于2022年问世。去年11月,OpenAI发布了ChatGPT,当时它是一个基于GPT-3.5的经过微调的对话模型。

GPT系列中的AI模型已经过训练,可以使用主要从互联网获取的一大段文本来预测token序列中的下一个token(token是单词的一部分)。在训练过程中,神经网络建立了一个表示单词和概念之间关系的统计模型。久而久之,OpenAI逐渐增加了每个GPT模型的大小和复杂性,与人类在相同的场景中完成文本的方式相比,其表现因而通常更胜一筹,不过在处理不同任务时表现不一样。

向ChatGPT Plus客户介绍GPT-4的屏幕截图

就任务而言,GPT-4的表现值得注意。与之前的版本一样,它可以遵循自然语言的复杂指令,生成技术性或创造性作品,但它可以做得更深入:它支持生成和处理多达32768个token(约25000字的文本),这允许创建比以前模型长得多的内容或分析大得多的文档。

在分析GPT-4的功能时,OpenAI让该模型参加了众多考试,比如统一律师考试、法学院入学考试(LSAT)、研究生入学考试(GRE)数学考试和各种AP科目考试。在处理许多任务时,其得分与人类相当。这意味着,假如GPT-4是仅凭应试能力来评判的人类,那么它有资格进入法学院,可能还有资格进入许多大学。

至于其多模态功能(目前还仅限于研究预览),GPT-4能够分析多个图像的内容并理解它们,比如理解一个多图像序列的笑话,或者从图表中提取信息。微软和谷歌最近都一直在尝试研发类似的多模态功能。尤其是,微软认为要实现AI研究人员所说的“通用人工智能”(AGI),即执行一般任务的水平赶得上人类的AI,多模态方法就必不可少。

Scale AI的主管级提示工程师Riley Goodside在分析GPT-4的多模态功能时在推文上提到了“AGI”。

OpenAI已表示,其目的是开发出可以在任何智力任务方面取代人类的AGI,不过GPT-4还没有到这个地步。

在宣布GPT-4后不久,OpenAI首席执行官Sam Altman发推文道:“它仍然有缺陷,仍然有局限性,第一次使用时的感觉比你花更多时间使用后的感觉仍似乎来得惊艳。”

的确如此,GPT-4远非完美。它仍然体现了其训练数据集中的偏见,产生幻觉(编造听起来似是而非的谎言),还可能生成错误信息或有害的建议。

微软同时宣布GPT-4意味着OpenAI至少从2022年11月开始就一直在发力GPT-4,当时微软在印度首次测试了必应聊天。

微软在一篇博文中写道:“我们很高兴地确认,新必应在GPT-4上运行,针对搜索进行了定制。如果你在过去六周的任何时候使用过预览版的新必应,想必已经领略到了OpenAI最新模型的魅力。随着OpenAI对GPT-4及更高版本进行更新,必应将从这些改进中受益,以确保我们的用户拥有市面上最全面的副驾驶员(copilot)功能。”

必应聊天的时间表与IT外媒Ars Technica在去年秋天接到的匿名线索相吻合,该消息称OpenAI内部已经准备好了GPT-4,但在做好更到位的护栏措施之前不愿发布GPT-4。虽然必应聊天的对齐(alignment)其性质存在争议,但GPT-4现在有了护栏措施,那就是加强对齐训练。

OpenAI使用一种名为“从人类反馈中强化学习”(RLHF)的技术,利用来自GPT-4结果的人类反馈来训练神经网络,以拒绝讨论OpenAI认为敏感或可能有害的话题。

OpenAI在其网站上写道:“我们花了6个月的时间,利用从我们的对抗性测试程序和ChatGPT获得的经验,迭代对齐调校GPT-4,从而在真实性、导向性和拒绝偏离护栏等方面取得了有史以来最好的结果(尽管还远远称不上完美)。”

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230315A0A5DA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券