微软在 AI 上押下重注

文章来源：企鹅号 - 旁观者中者

去年出现了人工智能工具 (AI)，可以根据文本提示创建图像、艺术品甚至视频。

人工智能写作也取得了重大进展，OpenAI 的 ChatGPT引起了人们对写作未来的广泛兴奋和恐惧。

现在，距离 2023 年仅几天，人工智能的另一个强大用例已经成为人们关注的焦点——一种可以无可挑剔地模仿人的声音的文本转语音工具。

DALL-E 2，Stable Diffusion，Midjourney：AI 艺术生成器如何工作，艺术家应该害怕它们吗？

由微软开发的 VALL-E 可以录制某人的三秒钟声音，并复制该声音，将书面文字转化为语音，根据文本的上下文具有逼真的语调和情感。

经过 60,000 小时的英语演讲录音训练，它可以在“零镜头情况”下发表演讲，这意味着没有任何事先的例子或在特定背景或情况下的训练。

在康奈尔大学发表的一篇论文中介绍 VALL-E 时，开发人员解释说录音数据由 7,000 多个独特的说话人组成。

人工智能在 2023 年的挑战：ChatGPT 4、应对气候变化和减少偏见

该团队表示，他们的文本转语音系统 (TTS) 使用的数据是现有 TTS 系统的数百倍，帮助他们克服了零样本问题。

该工具目前不供公众使用——但它确实引发了安全问题，因为它可能被用来生成来自任何人声音的任何文本。

微软在 AI 上押下重注

显示 VALL-E 工作原理的图表Microsoft

然而，它的创建者提供了一个演示，展示了一些三秒的扬声器提示和文本到语音的演示，并正确地模仿了声音。

除了扬声器提示和 VALL-E 的输出，您还可以将结果与“基本事实”（实际扬声器阅读提示文本）和当前 TTS 技术的“基线”结果进行比较。

ChatGPT：为什么类人人工智能聊天机器人突然让每个人都在聊天

微软在人工智能方面投入了大量资金，并且是 OpenAI 的支持者之一，OpenAI 是 ChatGPT 和 DALL-E（一种文本到图像或艺术工具）的幕后公司。

这家软件巨头在 2019 年向 OpenAI 投资了 10 亿美元（9.3 亿欧元），本周 semafor.com 上的一份报告称它正在考虑向该公司再投资 100 亿美元（93 亿欧元）。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货