GPT-4震撼发布：图像理解、先进的推理能力、惊人的准确性

AiCharm

发布于 2023-05-15 16:59:49

1.8K0

文章被收录于专栏：AiCharmAiCharm

谁能革得了 ChatGPT 的命？现在看来还是 OpenAI 自己。

在 ChatGPT 引爆科技领域之后，人们一直在讨论 AI「下一步」的发展会是什么，很多学者都提到了多模态，我们并没有等太久。今天凌晨，OpenAI 发布了多模态预训练大模型 GPT-4。

GPT-4 实现了以下几个方面的飞跃式提升：强大的识图能力；文字输入限制提升至 2.5 万字；回答准确性显著提高；能够生成歌词、创意文本，实现风格变化。

「GPT-4 是世界第一款高体验，强能力的先进AI系统，我们希望很快把它推向所有人，」OpenAI 工程师在介绍视频里说道。

根据OpenAI官方的介绍，GPT-4是一个超大的多模态模型，也就是说，它的输入可以是文字（上限2.5万字），还可以是图像。

（看图）手套掉下去会怎样？它会掉到木板上，并且球会被弹飞。

甚至只需要简单在纸上画一个网站的草稿图：

拍一张照片上传给GPT-4，它就可以立马生成网站的HTML代码！

在性能表现上，OpenAI直接甩出一句话：

在各种专业和学术基准上和人类相当！

而且不只是发布GPT-4这么简单，OpenAI这次“啪的一下”把相关“大动作”一步到位了：

ChatGPT Plus：集成GPT-4的ChatGPT升级版
发布GPT-4的API
公布技术论文 * 公开System Card

不仅如此，传闻的“必应早就用上了GPT-4”在今天也得到了微软方面的证实：

没错，确实是这样的！

不得不说，自打ChatGPT问世以来，微软和谷歌之间打响的数轮科技战役，微软这次又双叒叕赢麻了。

GPT-4：我SAT考710，能当律师

GPT-4 是一个大型多模态模型，能接受图像和文本输入，再输出正确的文本回复。实验表明，GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如，它通过了模拟律师考试，且分数在应试者的前 10% 左右；相比之下，GPT-3.5 的得分在倒数 10% 左右。

OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整，从而在真实性、可控性等方面取得了有史以来最好的结果。

在过去的两年里，OpenAI 重建了整个深度学习堆栈，并与 Azure 一起为其工作负载从头开始设计了一台超级计算机。一年前，OpenAI 在训练 GPT-3.5 时第一次尝试运行了该超算系统，之后他们又陆续发现并修复了一些错误，改进了其理论基础。这些改进的结果是 GPT-4 的训练运行获得了前所未有的稳定，以至于 OpenAI 能够提前准确预测 GPT-4 的训练性能，它也是第一个实现这一点的大模型。OpenAI 表示他们将继续专注于可靠的扩展，进一步完善方法，以帮助其实现更强大的提前预测性能和规划未来的能力，这对安全至关重要。

OpenAI 正在通过 ChatGPT 和 API（有候补名单）发布 GPT-4 的文本输入功能。图像输入功能方面，为了获得更广泛的可用性，OpenAI 正在与其他公司展开合作。

OpenAI 今天还开源了 OpenAI Evals，这是其用于自动评估 AI 模型性能的框架。OpenAI 表示此举是为了让所有人都可以指出其模型中的缺点，以帮助 OpenAI 进一步改进模型。

有趣的是，GPT-3.5 和 GPT-4 之间的区别很微妙。当任务的复杂性达到足够的阈值时，差异就会出现 ——GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。为了了解这两个模型之间的差异，OpenAI 在各种基准和一些为人类设计的模拟考试上进行了实验。

OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型，以及大多数 SOTA 模型：

许多现有的机器学习基准测试都是用英语编写的。为了初步了解 GPT-4 在其他语言上的能力，研究团队使用 Azure Translate 将 MMLU 基准 —— 一套涵盖 57 个主题的 14000 个多项选择题 —— 翻译成多种语言。在测试的 26 种语言的 24 种中，GPT-4 优于 GPT-3.5 和其他大语言模型（Chinchilla、PaLM）的英语语言性能：

就像许多使用 ChatGPT 的公司一样，OpenAI 表示他们内部也在使用 GPT-4，因此 OpenAI 也在关注大型语言模型在内容生成、销售和编程等方面的应用效果。OpenAI 还使用 GPT-4 辅助人们评估 AI 输出，这也是 OpenAI 对其策略的第二阶段。OpenAI 既是 GPT-4 的开发者，也是使用者。

GPT-4：我能玩梗图

GPT-4 可以接受文本和图像形式的 prompt，新能力与纯文本设置并行，允许用户指定任何视觉或语言任务。

具体来说，它在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出（自然语言、代码等）。在一系列领域 —— 包括带有文本和照片的文档、图表或屏幕截图上 ——GPT-4 展示了与纯文本输入类似的功能。此外，它还可以通过为纯文本语言模型开发的测试时间技术得到增强，包括少样本和思维链 prompt。

比如给 GPT-4 一个长相奇怪的充电器的图片，问为什么这很可笑？

GPT-4 回答道，VGA 线充 iPhone。

格鲁吉亚和西亚的人均每日肉类消费，算平均数：

看起来，现在的 GPT 已经不会在计算上胡言乱语了：

还是太简单，那直接让它做题，还是个物理题：

GPT-4 看懂了法语题目，并完整解答：

GPT-4 可以理解一张照片里「有什么不对劲的地方」：

GPT-4 还可以量子速读看论文，如果你给它 InstructGPT 的论文，让它总结摘要，就会变成这样：

如果你对论文里的某一个图感兴趣呢？GPT-4 也可以解释一下：

接着来，问 GPT-4 梗图是什么意思：

它给出了详细的回答：

那么漫画呢？

让 GPT-4 解释为什么要给神经网络加层数，似乎有一点加倍的幽默感。

不过 OpenAI 在这里说了，图像输入是研究预览，仍不公开。

研究人员用学术的 Benchmark 视角来解读 GPT-4 的看图能力，然而这已经不够了，他们还能不断发现该模型可以令人兴奋地处理新任务 —— 现在的矛盾是 AI 的能力和人类想象力之间的矛盾。

看到这里，应该有研究人员感叹：CV 不存在了。

谷歌紧追不舍

就在GPT-4发布前，谷歌方面为了迎战微软，宣布将一系列即将推出的AIGC功能，应用到自家产品中。

包括谷歌 Docs（文档）、Gmail、Sheets（表格）和 Slides（幻灯片）。

但不同于微软和OpenAI的“发布即可用”，谷歌只会先将Docs和Gmail中的AI工具，在月底提供给一些“值得信赖的开发人员”。

而其它功能则将是在今年晚些时候向公众开放。

至于具体时间，谷歌方面并没有具体说明。

而外界对此评价是谷歌希望抢先微软原定于本周四的发布。

但从今天的结果上来看，微软依旧提前“抢滩登陆”。

同时，在 Google #Bard 吗，面前：

模型参数

在GPT-4发布之前，便有网友做出了GPT-3和GPT-4参数量的对比图，并猜测GPT-4的参数量将达到100万亿。

这一次亦是如此。

有网友预言，未来GPT-5的参数量，会是这样的：

但无论如何，这一次，我们离真·人工智能，更近了一步。

ChatGPT 直接升级至 GPT-4 版

GPT-4 发布后，OpenAI 直接升级了 ChatGPT。ChatGPT Plus 订阅者可以在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。

要访问 GPT-4 API（它使用与 gpt-3.5-turbo 相同的 ChatCompletions API），用户可以注册等待。OpenAI 会邀请部分开发者体验。

获得访问权限后，用户目前可以向 GPT-4 模型发出纯文本请求（图像输入仍处于有限的 alpha 阶段）。至于价格方面，定价为每 1k 个 prompt token 0.03 美元，每 1k 个 completion token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。

GPT-4 的上下文长度为 8,192 个 token。OpenAI 还提供了 32,768 个 token 上下文（约 50 页文本）版本的有限访问，该版本也将随着时间自动更新（当前版本 gpt-4-32k-0314，也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

以上，就是今天 OpenAI 关于 GPT-4 的所有内容了。令人不满的一点是，OpenAI 公开的技术报告中，不包含任何关于模型架构、硬件、算力等方面的更多信息，可以说是很不 Open 了。

不管怎样，迫不及待的用户大概已经开始测试体验了吧。