首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI发布新版大模型,能力提升在哪里?

凌晨的时候,迎来了Openai春季发布会,整场的重点主要围绕这几个方面:

新版本GPT-4o发布:支持语音、文字、图像、视频等多模态大模型,相当于把多种模态实现了端到端的整体迅雷

实时语音功能提升明显:其中在新版本模型中,它的实时语音对话最为惊艳,能够识别人的情绪、语气和语调,能够真实感觉到像是在和一个真人在对话。

新版本模型将免费提供给用户使用

实时语音功能效果提升明显

整场发布会,其实最为惊艳的要属于新版本的实时语音功能。以前的语音对话模型,其本质时需要先把语音转换成文本,然后文本再输入到模型中让模型进行识别。在转换的过程中,本质上就会损失掉语音中的语气、语调等重要信息。

上面的语音到文本的链路,会导致延迟很高,如果每个环节都延迟几秒,最后对话的效果会令人感到不适应。同时,人类自然对话具有灵活性,如插入语气词、预测对方结束、自然打断等。而以前“语音转文本”的链路并不能实现这样的功能。

很显然,GPT-4o不是走上面老一套的思路。虽然它没有放出具体的技术细节,但是应该猜测是直接把语音信息输入到模型中,而去掉了转换成文本这一步,这样做的好处在于能够极大的保留原始语音的信息,让模型进行识别。

从下面演示的视频中看到:

语音情绪识别和生成带有合适情绪的语音,可以改善非常多产品的交互

语音实时回复的延迟比较短,像真人一样进行回复

有了实时语音交互能力的加强之后,就可以实现真实场景的对话。比如在发布会的演示中,OpenAI的成员在镜头前现场编写数学题目。

GPT-4o在无延时的情况下,实时观察并理解了这些题目,并且马上给出了准确的答案。

Scaling Raw是否要失效了?

GPT-4o的能力对比于以前的模型其实是有提升的。在全模态场景下,对比于其他大模型有一定的提升

在文本评估集上:GPT-4o 在MMLU(常识问题)上创下了 88.7% 的新高分。

在音频评估方面:GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。

在视觉评估上:对比其他家的大模型,GOT-4o的视觉能力在多个视觉评估集上有明显提升。

从上面几个评估效果来看,GPT-4o确实在很多场景上有一定的提升,但是没有像之前GPT-4一出场一样就能够把整体的指标拉到天花板级别。

也就是目前的大模型尽管有着大量的数据集进行训练,但是其能力却没有大规模的提升,体现出了Scaling raw在慢慢失效。有观点认为,虽然互联网有着大规模的数据集,但是其噪声比较多,在之后的研究中应该更多的关注于数据集的质量而不是数量。

GPT-4o的初体验

目前登陆ChatGPT官网已经能够看到GPT-4o:

从使用体验上看,它的功能接近于GPT-4,但其推理速度明显好于GPT-4。很好奇OpenAI到底做了什么加速推理的方法,能够使得GPT-4o推理速度快了这么多。

GPT-4o对于绘图、文档问答也能够快速问答:

1

数学计算

Q:一个三角形,如果一条边长为4cm,另一条边长为7cm,则第三条边最长可能是多少厘米?(答案为正整数)

GPT-4o给出的答案范围是在“3< c < 11”,然后又由于是最长正整数,所以是“10cm”,推理是正确的。

2

逻辑推理

Q:赵三的父母结婚的时候,为什么没有邀请自己参加

3

识图能力

Q:图片中的人物分别是谁

GPT-4o对于这种识别人物的简单任务,还是游刃有余的,能够识别出余承东和刘德华出来。

对于一些笑话的识别,中文识别能力还是比较一般,没有识别出“丑”字出来:

总结

这场发布会,虽然没有期待中的GPT-5出现,但是已经有一点AGI的雏形。还是比较期待OpenAI能够快点把发布会说的技术开放出来,让我们体验一下比较惊艳的实时语音交互。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OQmpV0M5PN2BIuFNGpjvpL6g0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券