首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微软在 AI 上押下重注

去年出现了人工智能工具 (AI),可以根据文本提示创建图像、艺术品甚至视频。

人工智能写作也取得了重大进展,OpenAI 的 ChatGPT引起了人们对写作未来的广泛兴奋和恐惧。

现在,距离 2023 年仅几天,人工智能的另一个强大用例已经成为人们关注的焦点——一种可以无可挑剔地模仿人的声音的文本转语音工具。

DALL-E 2,Stable Diffusion,Midjourney:AI 艺术生成器如何工作,艺术家应该害怕它们吗?

由微软开发的 VALL-E 可以录制某人的三秒钟声音,并复制该声音,将书面文字转化为语音,根据文本的上下文具有逼真的语调和情感。

经过 60,000 小时的英语演讲录音训练,它可以在“零镜头情况”下发表演讲,这意味着没有任何事先的例子或在特定背景或情况下的训练。

在康奈尔大学发表的一篇论文中介绍 VALL-E 时,开发人员解释说录音数据由 7,000 多个独特的说话人组成。

人工智能在 2023 年的挑战:ChatGPT 4、应对气候变化和减少偏见

该团队表示,他们的文本转语音系统 (TTS) 使用的数据是现有 TTS 系统的数百倍,帮助他们克服了零样本问题。

该工具目前不供公众使用——但它确实引发了安全问题,因为它可能被用来生成来自任何人声音的任何文本。

微软在 AI 上押下重注

显示 VALL-E 工作原理的图表Microsoft

然而,它的创建者提供了一个演示,展示了一些三秒的扬声器提示和文本到语音的演示,并正确地模仿了声音。

除了扬声器提示和 VALL-E 的输出,您还可以将结果与“基本事实”(实际扬声器阅读提示文本)和当前 TTS 技术的“基线”结果进行比较。

ChatGPT:为什么类人人工智能聊天机器人突然让每个人都在聊天

微软在人工智能方面投入了大量资金,并且是 OpenAI 的支持者之一,OpenAI 是 ChatGPT 和 DALL-E(一种文本到图像或艺术工具)的幕后公司。

这家软件巨头在 2019 年向 OpenAI 投资了 10 亿美元(9.3 亿欧元),本周 semafor.com 上的一份报告称它正在考虑向该公司再投资 100 亿美元(93 亿欧元)。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230209A01II300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券