上新｜刚刚，OpenAI重磅升级语音模型，AI会“说话”也有“情绪”了

文章来源：企鹅号 - AI生活家

图源：网络截图。侵删。

北京时间3月21日零点OpenAI忽然宣布在1点将会发布新的语言模型。一个小时后，OpenAI正式推出三款全新语音模型及升级版Agents SDK，引发全球开发者关注。

图源：网络截图。侵删。

“史上最强”语音识别，全面超越Whisper，首先登场的是两款全新的语音转文本（Speech-to-Text）模型。据OpenAI团队介绍，这两款模型均基于海量音频数据训练，单词错误率显著低于之前大受欢迎的Whisper模型，尤其在多语言、多口音环境下表现更为出色。不仅识别速度更快，准确度更高，价格也极具竞争力。这意味着，未来无论是会议记录、实时字幕、语音助手，还是跨境电商、语言学习，都会迎来一个更高效稳定的语音输入体验。

图源：网络截图。侵删。

颠覆性TTS模型，情感语调随心调控：除了语音识别，OpenAI此次还发布了一款全新的文本转语音（TTS）模型 —— GPT-4 Mini TTS。相比传统TTS技术只能“平铺直叙”输出机械化声音，这款模型的最大亮点是：开发者可以精确控制语音的语调、能量、风格，甚至为AI定制“个性化情绪”。

举个例子，你可以指令AI客服在道歉时语气更真诚、在介绍产品时更加有感染力，或打造一个陪伴感十足的虚拟播客主播，真正实现“有温度”的语音交互。

更令人惊喜的是，TTS模型定价仅为1美分/分钟，大大降低了企业和开发者的应用门槛。

图源：网络截图。侵删。

此外，OpenAI还同步更新了Agents SDK，现已全面支持音频接口。开发者只需简单集成，即可将原本的文字型AI助手轻松升级为全双工语音代理，实现如打电话、客户咨询、语音学习、互动播报等更自然流畅的体验。

图源：网络截图。侵删。

此次发布会上，OpenAI还宣布举办一场特别的创新竞赛，鼓励全球开发者在OpenAI FM平台展示他们基于新语音技术的创意项目，获胜者将赢得由青少年工程师打造的定制版收音机，寓意“AI之声”走入现实生活。

感兴趣的朋友现在就可以在 https://OpenAI.fm体验新的TTS模型。

photo by DALL·E3

本文写于2025年3月21日

连续日更的第354天，第378篇

⬆️关注我，一起在AI前沿探索⬆️

发表于: 2025-03-212025-03-21 07:47:00
原文链接：https://page.om.qq.com/page/OxDHhaEZojNT31Jtc0hW3fdg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

上新｜刚刚，OpenAI重磅升级语音模型，AI会“说话”也有“情绪”了

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐