首页
学习
活动
专区
圈层
工具
发布

老北京、上海话、四川腔全都会!通义千问 TTS 重大升级:300万小时训练,支持七种中英双语音色

大数据文摘出品

近日,Qwen 团队对旗下语音合成模型 Qwen-TTS 进行了重大升级。

此次更新的版本为“qwen-tts-latest”或“qwen-tts-2025-05-22”,通过 Qwen API 即可访问和使用。

最引人注目的改动,是Qwen-TTS首次支持生成三种中文方言:北京话、上海话以及四川话。

这意味着,AI生成的语音不仅可以说普通话,还能自然地模仿出老北京的胡同腔、上海弄堂的吴语味,乃至川蜀乡音中的抑扬顿挫。

这一能力背后,是Qwen-TTS使用了超过300万小时的超大规模语料库进行训练。

不仅如此,Qwen-TTS还能自动根据文本内容,调整语音的韵律、节奏与情绪变化。

这一点尤为关键。它让AI的声音不再是单调死板的“机器合成”,而是能做到抑扬顿挫、声情并茂。

目前,Qwen-TTS 支持七种中英双语音色,涵盖不同语言风格和性格特征。

包括 Cherry、Ethan、Chelsie、Serena 这几位通用中英文配音角色,以及 Dylan(北京话)、Jada(上海话)和 Sunny(四川话)这三位方言专属音色。

每一种音色都可以生成中英文混合语句,语调自然、语速流畅,令人难以分辨其非人类发声。

图源“通义千问Qwen”官方微信号

据悉,Qwen-TTS在 SeedTTS-Eval 评测集上的表现已达到人类平均水平。

无论从流畅性、情感传达、语速掌控还是音质自然度上看,均展现出业内领先的综合能力。

而从开发者角度来看,Qwen-TTS 的使用门槛也被大幅降低。

用户仅需通过 Qwen API,并设置必要的模型名(如“qwen-tts-latest”)与目标音色(如“Dylan”),即可快速合成高质量语音。

官方还提供了完整的Python调用示例。代码逻辑清晰、接口稳定,只需数行,即可将文本转为语音,并自动下载音频文件。

调用方式灵活,支持本地部署与云端调用,适合各类开发者与企业级应用场景。

例如,只需一段简单的文本:“哟,您猜怎么着?今儿个我看NBA,库里投篮跟闹着玩似的”,就能快速生成带有北京味儿的语音内容。

这项能力,在短视频配音、虚拟主播、播客制作、语音小说等领域具有巨大潜力。

更重要的是,Qwen-TTS 的可扩展性极强。

据官方透露,未来还将增加更多语言与语音风格,覆盖更多方言与多语环境。

当然,这也为少数语言保护、多语种翻译、跨境产品本地化等问题提供了新的解决思路。

作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信 Q1yezi,共同交流行业动态与技术趋势!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OGxP6HXAn_hhK_OqXKptwcAA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券