首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI新音频模型实测:定制化语音惊艳,中文表现待加强

近日,OpenAI在其API平台上隆重推出了三款全新的音频处理模型,分别为两款语音转文字模型——gpt-4o-transcribe与gpt-4o-mini-transcribe,以及一款文字转语音模型gpt-4o-mini-tts。据OpenAI官方介绍,这些模型在识别准确率、语言理解力及适应性方面实现了显著提升,尤其在面对口音差异、嘈杂环境及语速变化等复杂场景时,表现尤为出色。

gpt-4o-mini-tts模型赋予了开发者前所未有的定制化能力,用户可指令模型以特定风格进行语音输出,如模仿富有同情心的客服、机器人腔调或是疯狂科学家的语调,这一功能无疑将极大丰富智能语音交互的多样性和真实感。

为了直观展示这些新模型的能力,OpenAI还特意搭建了一个专属网站,用户无需复杂操作即可免费体验文字转语音功能,而语音转文字功能则需通过API接口访问。

经过亲身体验,新模型的文字转语音功能确实令人眼前一亮。它不仅能够流畅且富有感情地朗读英文文本,还能在意大利语中演绎餐厅菜单,甚至在粤语中模拟推销电话,不过,在中文语境下,该模型的表现仍有待提升,语音效果相对生硬,缺乏自然流畅感。

在价格方面,OpenAI为用户提供了相对亲民的选择:gpt-4o-transcribe每分钟收费0.006美元(约人民币0.04元),gpt-4o-mini-transcribe则为每分钟0.003美元(约人民币0.02元),而gpt-4o-mini-tts的定价为每分钟0.015美元(约人民币0.11元)。

在OpenAI提供的体验平台上,用户可以从11种预设声音中进行选择,尽管这些声音的名称不够直观,但通过试听可以感受到它们各自的特点。在选择声音后,用户还可以进一步指定风格或人设,如冷静、耐心老师、友好或美食主厨等,这为语音内容的个性化定制提供了无限可能。

以“美食主厨”为例,当选择这一人设并输入相关文本后,模型迅速生成了一段充满意大利风情的语音,不仅准确报出了菜单,还自然融入了意大利口音的英文讲解,细节处理得相当到位。模型还能根据定制化的提示词,模仿特定历史时期的说话方式,如“中世纪骑士”,这一功能的实现离不开详尽的提示词指引。

然而,当尝试中文场景时,模型的表现则略显不足。尽管生成速度理想,但中文语音缺乏起伏与变化,声音较为生硬,缺乏亲和力。在方言测试方面,模型仅成功识别并输出了粤语内容,其他方言如闽南语、山东话等则未能达到预期效果。

在语音转文字方面,OpenAI此次推出的gpt-4o-transcribe和gpt-4o-mini-transcribe两款模型在多个基准测试中均超越了上一代模型whisper。它们在高资源语言上的表现尤为出色,如英语、西班牙语等,但在中文上的表现相对较弱。在低资源语言上,这两款模型也实现了显著改进,如孟加拉语的错误率大幅下降。

OpenAI表示,这些新模型在音频生成和转录技术上的进步,得益于其强大的GPT架构及在专门音频数据集上的大规模预训练。他们还采用了改进的模型蒸馏技术和自博弈技术,使得小型模型也能提供出色的对话质量和响应速度。未来,OpenAI将继续致力于提升音频模型的智能性和准确性,为开发者提供更加个性化的体验。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ORGTk1_28t-hBqEElEjgskOQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券