首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【人工智能资讯】OpenAI全新玩家GPT-4o亮相!图文音频一机搞定

北京时间5月14日凌晨,OpenAI召开了一个不到30分钟的发布会,正式发布了新的AI模型:GPT-4o,除了可以给普通用户使用之外,还将开放相应API给GPT的开发者,比原来的GPT 4-Turbo 快 2 倍,价格便宜 50%。

为什么叫做GPT-4o?这里的「o」代表了英文单词:Omni,代表了全能。不得不说,生成式AI又朝着AGI迈出了一大步,正如OpenAI首席执行官Sam Altman所说:这是一个魔法一样的新功能。

关键是:GPT-4o的能力向免费用户开放(但会限制数量,免费用户达到数量之后,会自动跳回GPT-3.5)。

GPT-4是OpenAI之前的领先模型,它集成了图像和文本功能,能够分析图像和文本,完成从提取图像中的文本到描述图像内容等任务。而GPT-4o在此基础上增加了语音功能。

这一改进带来了哪些新功能?包括但不限于以下几点:

GPT-4o显著提升了ChatGPT的使用体验—ChatGPT是OpenAI的人工智能聊天机器人。虽然ChatGPT长期支持语音模式,将ChatGPT 的文本转为语音,但GPT-4o在此基础上进行了优化,使用户能够更像与助手互动一样自然地使用ChatGPT。

例如,用户现在可以在ChatGPT回答问题时中断它,而OpenAI表示,新模型能够提供“实时”响应,甚至能够捕捉到用户声音中的情感,并以不同的情感风格生成语音。

GPT-4o还增强了ChatGPT的视觉功能。通过照片或屏幕截图,ChatGPT现在可以迅速回答相关问题,从“这段代码是做什么用的”到“这个人穿的是什么品牌的衬衫”。

看完这则资讯,发现openai的GPT-4o集成了语音识别。 看来OpenAI的Whisper自动语音识别(ASR)模型, 后续需要深入研究下。

凌晨起床看到的消息, 记录下。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OC4fDQJB2cCI3Ii9DMm_2EDw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券