去年出现了人工智能工具 (AI),可以根据文本提示创建图像、艺术品甚至视频。
人工智能写作也取得了重大进展,OpenAI 的 ChatGPT引起了人们对写作未来的广泛兴奋和恐惧。
现在,距离 2023 年仅几天,人工智能的另一个强大用例已经成为人们关注的焦点——一种可以无可挑剔地模仿人的声音的文本转语音工具。
DALL-E 2,Stable Diffusion,Midjourney:AI 艺术生成器如何工作,艺术家应该害怕它们吗?
由微软开发的 VALL-E 可以录制某人的三秒钟声音,并复制该声音,将书面文字转化为语音,根据文本的上下文具有逼真的语调和情感。
经过 60,000 小时的英语演讲录音训练,它可以在“零镜头情况”下发表演讲,这意味着没有任何事先的例子或在特定背景或情况下的训练。
在康奈尔大学发表的一篇论文中介绍 VALL-E 时,开发人员解释说录音数据由 7,000 多个独特的说话人组成。
人工智能在 2023 年的挑战:ChatGPT 4、应对气候变化和减少偏见
该团队表示,他们的文本转语音系统 (TTS) 使用的数据是现有 TTS 系统的数百倍,帮助他们克服了零样本问题。
该工具目前不供公众使用——但它确实引发了安全问题,因为它可能被用来生成来自任何人声音的任何文本。
微软在 AI 上押下重注
显示 VALL-E 工作原理的图表Microsoft
然而,它的创建者提供了一个演示,展示了一些三秒的扬声器提示和文本到语音的演示,并正确地模仿了声音。
除了扬声器提示和 VALL-E 的输出,您还可以将结果与“基本事实”(实际扬声器阅读提示文本)和当前 TTS 技术的“基线”结果进行比较。
ChatGPT:为什么类人人工智能聊天机器人突然让每个人都在聊天
微软在人工智能方面投入了大量资金,并且是 OpenAI 的支持者之一,OpenAI 是 ChatGPT 和 DALL-E(一种文本到图像或艺术工具)的幕后公司。
这家软件巨头在 2019 年向 OpenAI 投资了 10 亿美元(9.3 亿欧元),本周 semafor.com 上的一份报告称它正在考虑向该公司再投资 100 亿美元(93 亿欧元)。
领取专属 10元无门槛券
私享最新 技术干货