首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Voice Engine - OpenAI 声音合成

现在的 OpenAI 掌握着最好的人工智能技术,每一个动作都会影响各大科技公司的决策,这不,OpenAI 又公布了声音合成技术的发展,当然要第一时间看看他们到底干了什么。

OpenAI 可以根据 15 秒的原始语音,生成该音色的其他语音内容,不做技术分析,看最终的他们结果:

生成画外音内容,用于不会阅读者或者儿童生成语音内容,怎么说呢,如果不说这是 AI 生成的,其实真的不太好分辨是真人阅读还是 AI 生成,效果真的还不错:

阅读内容:Some of the most amazing habitats on Earth are found in the rainforest. A rainforest is a place with a lot of precipitation and it has many kinds of animals trees and other plants. Tropical rainforests are usually not too far from the equator and are warm all year.

阅读内容:This story has been told and retold for thousands of years. What is the central message that it is teaching?

生成同音色的不同语言的内容,即会携带阅读者的口音生成其他语言的内容,如下,我们可以比较容易听出这是一个非中文母语的人阅读中文内容,厉害的是这是 AI 生成的:

阅读内容:友谊是一种普遍的财富,无论我们身在世界何处,它都会给我们的生活带来快乐、支持和笑声。真正的朋友在我们经历风风雨雨时,与我们并肩,分享我们的快乐,减轻我们的悲伤。让我们牵着友谊的纽带,让它跨越每一种语言和文化,将我们所有人连接在一起。

小语种语言生成,小语种往往在网络上的内容比较少,使得使用小语种语言的人,获取信息没有英语这种更多人使用的语言方便和实时,导致了信息的不对称,该技术是打破这种不对称的有力大杀器:

阅读内容:Lishe bora ni muhimu katika kuhakikisha kwamba watoto wanakua vizuri, kimwili na kiakili. Vyakula kama matunda, mboga, protini, kalsiamu, na vitamini mbalibali ni muhimu sana kwa ukuaji wa mifupa na maendeleo ya ubongo. Kula vizuri kunamaanisha kwamba mtoto anakuwa na mfumu wa kinga imara unaomwezesha kupambana na magonjwa. Hii ina maana kwamba, hata kama kuna mafua yanayoenea mtaani, mtoto atakuwa na uwezo mkubwa wa kukabiliana nayo. Hivyo, hakutakuwa na haja ya kumpeleka hospitalini mara kwa mara. Kwa kufanya hivyo, tunakuwa tunajenga kizazi cha watu imara. Kama unavyojua, mustakabali wa jamii yetu uko mikononi mwa vijana hawa. Ni vyema tuwape mwanzo bora maishani.

良好的营养对于确保儿童身心健康成长非常重要。水果、蔬菜、蛋白质、钙和各种维生素等食物对于骨骼生长和大脑发育非常重要。吃得好意味着孩子拥有强大的免疫系统,能够抵抗疾病。这意味着,即使有流感在街上蔓延,孩子也会有很强的应对能力。这样一来,就不用经常带他去医院了。通过这样做,我们正在培养一代坚强的人。如您所知,我们社会的未来掌握在这些年轻人的手中。很高兴我们为他们提供了人生最好的开始。

对于某些无法说话的人,可以选择不同的音色来与其人交流,可以更好地代表他们,重要的是可以在不同语言中保持同样的音色:

阅读内容:打扰一下,我可以引起你的注意吗?感谢您的帮助。今晚我们可以看电影吗?你能帮我找到我的眼镜吗?感谢您的理解,这对我来说意义重大。

某些丧失语言能力的人,通过原有的其他的一些音频内容,把现在无法那么清楚说出的内容,恢复为以前可以清楚说出的内容,让他们可以像曾经的自己一样说话,最绝的是因为参考内容有一些背景的白噪音,生成的内容也有:

当前语音:

参考音频:

生成语音:

阅读内容:Hi everyone, this is what my voice sounds like using OpenAI's new text to speech model called Voice Engine. I was able to use just 15 seconds of a video that I made for a class project to be the reference audio source for the voice you hear right now. What do you think?

翻译:大家好,这是我使用 OpenAI 的新文本转语音模型(称为语音引擎)时发出的声音。我能够使用我为课堂项目制作的仅 15 秒的视频作为您现在听到的声音的参考音频源。你怎么认为?

最后

毫无疑问,这种技术有太多的公司在研究了,不过大多的情况要么是生成不够逼真,没有感情,要么音色差距太大不太像,OpenAI 的技术实力是毋庸置疑的,视频都能生成,音频也差不了哪里去,又一场腥风血雨!

声音合成,与 AI 换脸一样,存在各种各样的政策、法律、伦理和道德等方面的问题,科技发展带来的问题让科技去解决。

颤抖吧,人类!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OrAif0DPv905cVPkajNnboWg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券