OpenAI发布新版大模型，能力提升在哪里？

文章来源：企鹅号 - 算法一只狗

凌晨的时候，迎来了Openai春季发布会，整场的重点主要围绕这几个方面：

新版本GPT-4o发布：支持语音、文字、图像、视频等多模态大模型，相当于把多种模态实现了端到端的整体迅雷

实时语音功能提升明显：其中在新版本模型中，它的实时语音对话最为惊艳，能够识别人的情绪、语气和语调，能够真实感觉到像是在和一个真人在对话。

新版本模型将免费提供给用户使用

实时语音功能效果提升明显

整场发布会，其实最为惊艳的要属于新版本的实时语音功能。以前的语音对话模型，其本质时需要先把语音转换成文本，然后文本再输入到模型中让模型进行识别。在转换的过程中，本质上就会损失掉语音中的语气、语调等重要信息。

上面的语音到文本的链路，会导致延迟很高，如果每个环节都延迟几秒，最后对话的效果会令人感到不适应。同时，人类自然对话具有灵活性，如插入语气词、预测对方结束、自然打断等。而以前“语音转文本”的链路并不能实现这样的功能。

很显然，GPT-4o不是走上面老一套的思路。虽然它没有放出具体的技术细节，但是应该猜测是直接把语音信息输入到模型中，而去掉了转换成文本这一步，这样做的好处在于能够极大的保留原始语音的信息，让模型进行识别。

从下面演示的视频中看到：

语音情绪识别和生成带有合适情绪的语音，可以改善非常多产品的交互

语音实时回复的延迟比较短，像真人一样进行回复

有了实时语音交互能力的加强之后，就可以实现真实场景的对话。比如在发布会的演示中，OpenAI的成员在镜头前现场编写数学题目。

GPT-4o在无延时的情况下，实时观察并理解了这些题目，并且马上给出了准确的答案。

Scaling Raw是否要失效了？

GPT-4o的能力对比于以前的模型其实是有提升的。在全模态场景下，对比于其他大模型有一定的提升

在文本评估集上：GPT-4o 在MMLU（常识问题）上创下了 88.7% 的新高分。

在音频评估方面：GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能，特别是对于资源匮乏的语言。

在视觉评估上：对比其他家的大模型，GOT-4o的视觉能力在多个视觉评估集上有明显提升。

从上面几个评估效果来看，GPT-4o确实在很多场景上有一定的提升，但是没有像之前GPT-4一出场一样就能够把整体的指标拉到天花板级别。

也就是目前的大模型尽管有着大量的数据集进行训练，但是其能力却没有大规模的提升，体现出了Scaling raw在慢慢失效。有观点认为，虽然互联网有着大规模的数据集，但是其噪声比较多，在之后的研究中应该更多的关注于数据集的质量而不是数量。

GPT-4o的初体验

目前登陆ChatGPT官网已经能够看到GPT-4o：

从使用体验上看，它的功能接近于GPT-4，但其推理速度明显好于GPT-4。很好奇OpenAI到底做了什么加速推理的方法，能够使得GPT-4o推理速度快了这么多。

GPT-4o对于绘图、文档问答也能够快速问答：

数学计算

Q:一个三角形,如果一条边长为4cm,另一条边长为7cm,则第三条边最长可能是多少厘米?（答案为正整数）

GPT-4o给出的答案范围是在“3< c < 11”，然后又由于是最长正整数，所以是“10cm”，推理是正确的。

逻辑推理

Q：赵三的父母结婚的时候，为什么没有邀请自己参加

识图能力

Q：图片中的人物分别是谁

GPT-4o对于这种识别人物的简单任务，还是游刃有余的，能够识别出余承东和刘德华出来。

对于一些笑话的识别，中文识别能力还是比较一般，没有识别出“丑”字出来：

总结

这场发布会，虽然没有期待中的GPT-5出现，但是已经有一点AGI的雏形。还是比较期待OpenAI能够快点把发布会说的技术开放出来，让我们体验一下比较惊艳的实时语音交互。

相关快讯