文章/答案/技术大牛

发布

GPT-4重磅发布，吊打ChatGPT！性能炸天：10秒做出一个网站，在考试中击败90% 人类

文章来源：infoq刘燕

王炸来袭，OpenAI 联合创始人 Sam Altman 表示，GPT-4 是“迄今为止功能最强大的语言模型”。与上一代相比，GPT-4 更强大更可靠，且更有创造性。

GPT-4 来了

OpenAI 的新“核弹”来了。

3 月 14 日晚间，OpenAI 宣布发布多模态大模型 GPT-4。

“我们创建了 GPT-4，这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型（接受图像和文本输入，提供文本输出），虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平”，OpenAI 表示。

OpenAI 联合创始人 Sam Altman 表示，它是“迄今为止功能最强大、最一致的模型”，能够使用图像和文本。

在 YouTube 上的 Live Demo 中，OpenAI 的总裁和联合创始人 Greg Brockman 展示了 GPT-4 拥有的强大技能。GPT-4 可以总结文章、写代码、报税、写诗……更惊人的是，GPT-4 只需 10 秒就可以做出一个网站。

在演示视频中，按如下操作：

1、在草稿本上用纸笔画出一个非常粗糙的草图

2、拍照告诉 GPT：我要做一个网站长这样，给我生成网站代码

3、网站做完，总共历时十秒钟左右

不禁令人感叹，又有多少人要失业了。有网友在社交平台表示，“时刻准备下岗吧”。

GPT-4 的技术论文：https://cdn.openai.com/papers/gpt-4.pdf

GPT-4 系统模型卡介绍：https://cdn.openai.com/papers/gpt-4-system-card.pdf

最近这几个月，ChatGPT 的爆火，让人们惊叹于人工智能强大的聊天能力。GPT4 出来后，可以看到，在聊天之外，人工智能的能力已不断扩展其外延。

ChatGPT 用的语言模型是 GPT-3.5。在谈到 GPT-4 比前一个版本强大在哪里时，OpenAI 称，虽然这两个版本在随意的谈话中看起来很相似，但“当任务的复杂性达到足够的阈值时，差异就会出现”，GPT-4 更可靠、更有创意，并且能够处理更细微的指令。该公司表示，GPT-4 响应禁止内容请求的可能性比其前一个版本低 82%。OpenAI 表示，在内部评估中，GPT-4 产生正确回应的可能性要比 GPT-3.5 高出 40%。

而且 GPT-4 是多模态的，同时支持文本和图像输入功能。此外，GPT-4 比以前的版本“更大”，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这也使得它的运行成本更高。

GPT-4 在一系列基准测试中的表现优于 GPT-3.5

OpenAI 称它使用了微软 Azure 来训练模型，但没有公布有关具体模型大小或用于训练它的硬件的详细信息。

据悉，GPT-4 参加了多种基准考试测试，包括美国律师资格考试 Uniform Bar Exam、法学院入学考试 LSAT、“美国高考”SAT 数学部分和证据性阅读与写作部分的考试，在这些测试中，它的得分高于 88%的应试者。

GPT-4 从图像生成食谱

OpenAI 表示，已经与多家公司合作，要将 GPT-4 结合到他们的产品中，包括 Duolingo、Stripe 和 Khan Academy。

GPT-4 模型也将以 API 的形式，提供给付费版 ChatGPT Plus 的订阅用户，允许开发者付费将 AI 集成到他们的应用程序中。

微软表示，新款的必应（Bing）搜索引擎将运行于 GPT-4 系统之上。

在 OpenAI 宣布开发出 GPT-4 后，马斯克在推特上评论了这一消息，表达了他对人工智能对就业市场的潜在影响的担忧。马斯克在他的推文中写道：“我们人类还能做什么？我们最好继续使用 Neuralink！（马斯克旗下脑机接口公司）！”

GPT-4：可生成更安全、更有用响应的 OpenAI 至高系统

据介绍，凭借更广泛的常识和问题解决能力，GPT-4 能为用户提供更准确的回答。

GPT-4 的创造性和协作能力超越以往各个版本。

它能够生成、编辑并与用户一道完成创意和技术性创作任务，包括谱写歌曲、编写剧本或者学习用户的写作风格。

例如：

输入:

用一句话解释《灰姑娘》的剧情，其中每个单词必须以字母表中从 A 到 Z 的下一个字母开头，不得重复字母。

输出

A beautiful Cinderella, dwelling eagerly, finally gains happiness; inspiring jealous kin, love magically nurtures opulent prince; quietly rescues, slipper triumphs, uniting very wondrously, xenial youth zealously.

GPT-4 的高级推理能力已经超越 ChatGPT

ChatGPT：

输入

Andrew 从上午 11 点到下午 3 点有空，Joanne 中午到下午 2 点有空，之后下午 3：30 到 5 点有空。Hannah 中午有半小时空闲，之后下午 4 点到 6 点有空。如果 Andrew、Hannah 和 Joanne 要开个半小时的会，可以选择哪些时段？

输出

以下是空闲时段列表： -Andrew：上午 11 点至下午 3 点-Joanne：中午至下午 2 点，以及下午 3：30 至 5 点；-Hannah：中午至 12：30，以及下午 4 点至 6 点。据此计算，三人都空闲的时间窗口只有一个：下午 4 点至 4：30。因此会议可以安排在下午 4 点。GPT-4：

输入

Andrew 从上午 11 点到下午 3 点有空，Joanne 中午到下午 2 点有空，之后下午 3：30 到 5 点有空。Hannah 中午有半小时空闲，之后下午 4 点到 6 点有空。如果 Andrew、Hannah 和 Joanne 要开个半小时的会，可以选择哪些时段？

输出

Andrew：上午 11 点到下午 3 点；Joanne：中午 12 点至下午 2 点，下午 3：30 至 5 点；Hannah：中午 12 点至 12：30，下午 4 点至 6 点。三人均有空的时段：中午 12 点至 12：30。

GPT-4 在测试中也获得了超过 ChatGPT 的考核成绩（百分比位次）

统一律师考试

ChatGPT :10%

GPT-4: 90%

生物奥赛题

ChatGPT :31%

GPT-4 (含视觉):99%

比 GPT-3.5 准确性提高 40%

沿着对 GPT、GPT-2 和 GPT-3 的研究路径，OpenAI 的深度学习方法利用更多数据和计算建立起愈发复杂且强大的语言模型。

OpenAI 投入 6 个月时间，让 GPT-4 更安全、也更一致。在 OpenAI 的内部评估中，与 GPT-3.5 相比，GPT-4 响应拒绝内容请求的几率降低了 82%，生成可靠响应的几率提高 40%。

安全与对齐

人工反馈训练

OpenAI 引入了更多人工反馈，包括由 ChatGPT 用户提交的反馈，以改进 GPT-4 的行为。OpenAI 还与 50 多位专家合作，在 AI 安全和保障等领域获得了早期反馈。

在实际应用中不断提升

OpenAI 将以往模型在现实应用中的经验教训，引入了 GPT-4 的安全研究和监控系统当中。与 ChatGPT 一样，随着使用者越来越多，我们也将定期更新并改进 GPT-4。

GPT-4 辅助的安全研究

GPT-4 的高级推理和指令遵循能力加快了特准的安全工作。OpenAI 使用 GPT-4 辅助创建用于模型微调的训练数据，并在训练、评估和监控流程中对分类器进行迭代。

仍存在缺陷

OpenAI 公司 CEO Sam Altman 在 Twitter 上称，GPT-4 是其模型“最有能力且最符合”人类价值观和意图的模型，尽管“它仍然存在缺陷”。

“它仍然存在缺陷，仍然有限，但它有明显的改进”，Sam Altman 写道，“它比以前的模型更有创意，它的幻觉明显减少，而且它的偏见也更少。”

参考资料：

https://openai.com/product/gpt-4

www.youtube.com/watch?v=outcGtbnMuQ

发表于: 2023-03-152023-03-15 11:08:46
本文为 InfoQ 中文站特供稿件
首发地址：https://www.infoq.cn/article/HFSPasQ7SXZ9QzdFXhGO
如有侵权，请联系 cloudcommunity@tencent.com 删除。