首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

上新|刚刚,OpenAI重磅升级语音模型,AI会“说话”也有“情绪”了

图源:网络截图。侵删。

北京时间3月21日零点OpenAI忽然宣布在1点将会发布新的语言模型。一个小时后,OpenAI正式推出三款全新语音模型及升级版Agents SDK,引发全球开发者关注。

图源:网络截图。侵删。

“史上最强”语音识别,全面超越Whisper,首先登场的是两款全新的语音转文本(Speech-to-Text)模型。据OpenAI团队介绍,这两款模型均基于海量音频数据训练,单词错误率显著低于之前大受欢迎的Whisper模型,尤其在多语言、多口音环境下表现更为出色。不仅识别速度更快,准确度更高,价格也极具竞争力。这意味着,未来无论是会议记录、实时字幕、语音助手,还是跨境电商、语言学习,都会迎来一个更高效稳定的语音输入体验。

图源:网络截图。侵删。

颠覆性TTS模型,情感语调随心调控:除了语音识别,OpenAI此次还发布了一款全新的文本转语音(TTS)模型 —— GPT-4 Mini TTS。相比传统TTS技术只能“平铺直叙”输出机械化声音,这款模型的最大亮点是:开发者可以精确控制语音的语调、能量、风格,甚至为AI定制“个性化情绪”。

举个例子,你可以指令AI客服在道歉时语气更真诚、在介绍产品时更加有感染力,或打造一个陪伴感十足的虚拟播客主播,真正实现“有温度”的语音交互。

更令人惊喜的是,TTS模型定价仅为1美分/分钟,大大降低了企业和开发者的应用门槛。

图源:网络截图。侵删。

此外,OpenAI还同步更新了Agents SDK,现已全面支持音频接口。开发者只需简单集成,即可将原本的文字型AI助手轻松升级为全双工语音代理,实现如打电话、客户咨询、语音学习、互动播报等更自然流畅的体验。

图源:网络截图。侵删。

此次发布会上,OpenAI还宣布举办一场特别的创新竞赛,鼓励全球开发者在OpenAI FM平台展示他们基于新语音技术的创意项目,获胜者将赢得由青少年工程师打造的定制版收音机,寓意“AI之声”走入现实生活。

感兴趣的朋友现在就可以在 https://OpenAI.fm体验新的TTS模型。

photo by DALL·E3

本文写于2025年3月21日

连续日更的第354天,第378篇

⬆️关注我,一起在AI前沿探索⬆️

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OxDHhaEZojNT31Jtc0hW3fdg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券