展开

关键词

这家公司用Deepfake帮明星合成语,让他们躺着也能赚

还有许书,由于有了“明星朗读”buff加成,身价和销量也都会大涨。但如果有一天你忽然发现,这些其实是由AI出来的呢? 所以,他们就“贴心地”推出了这样一项服务,可以帮名人出自己的复制品,在需要的时候就可以用这些复制品来完成工作当某个名人在睡觉时,他的可能会在录广播、读有书。 One More Thing近几年来,的话题一直热度不减。一方面是技术上的突破确实令人惊喜。 早在2019年,Google团队就提出了一种文本语合成(text to speech)神经系统,能通过量样本学习到个不同说话者(speaker)的语特征,并合成他们的讲话频。这个量有? 而且的技术也已被不公司投入实际应用中,如亚马逊、微软、百度等等。

24650

只听几句话,百度AI就能模仿你的 | 附论文

只需要听你说几句话,AI就能“”出你的。这是百度Deep Voice项目最新get的能力。Deep Voice推出于一年以前,是一个能实时合成语的神经网络系统。 更例子在这里:https:audiodemos.github.io这些例子中,语系统最用了10段说话人语样本,最只有1个,每段样本只有3秒。 两种方法都适用于带有说话人嵌入的说话人语生成模型,不会降低其质量。说话人适应基于反向传播,用量样本对说话人生成模型进行微调。 如果只用于说话人嵌入,会拉长所需的时间、降低频质量,但可以用更的参数来表示每个说话人。说话人编码会单独训练一个模型,根据要频,结合说话人生成模型,来推理新的说话人嵌入。 这种方法的优点是所需时间短,表示每个说话人的参数,在计算资源不足的设备上也能部署。?

2K60
  • 广告
    关闭

    云产品限时秒杀

    云服务器1核2G首年38元,还有多款热门云产品满足您的上云需求

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    动态 | 百度新论文带来「」,一个半小时的训练数据就可以复制你的

    而且在此基础上,百度的研究人员们打算更进一步,尝试只从几秒长度的短句中学习说话者的特点。通常我们把这类问题称为「语」。 在生成语的自然性和相比原讲话人的相似性方面,两种方法也都只需要很样本就可以展现良好的表现。生成的样本可以参见 https:audiodemos.github.io. 。 讲话人适配方法是使用数个样本,通过基于反向传播的优化方法对讲话人语生成模型做精细调节(fine-tune)。 适配方法可以作用于整个模型,或者只作用于低维度的讲话人嵌入;后者表征每个讲话人所需的参数数量要,尽管需要更长的时间,生成的语的质量也要稍差一些。 讲话人编码方法中需要训练一个单独的模型,用它直接从要的语样本中推断出新的讲话人嵌入,然后再把这个讲话人嵌入用在讲话人语生成模型中。

    52970

    用AI打个电话骗走22万欧元,你的语只需5秒录

    用 AI 打电话真的可以骗到?是的。而且,指定人的语只需要一段 5 秒的录做样本。 据《华尔街日报》报道,今年 3 月份,一个不知名的黑客组织利用 AI 语技术打诈骗电话,结果成功骗到了 22 万欧元。? 只需 5 秒的录样本随着自然语言处理技术的进步,用 AI 合成特定人已经不是什么难事。? 今年 5 月份,搜狗在一场大会上展示了变功能,可以把任何人的转化成特定,让你的秒变志玲、马云、高晓松。而谷歌的一项研究甚至可以借助 5 秒钟的参照语任意语。 它是一个用于零样本(zero-shot)语的框架,只需要 5 秒钟的参照语。也就是说,如果你的录泄露出去,哪怕只有一小段,也很有可能会被坏人利用。

    45230

    5 秒「GitHub 热点速览 v.21.34」

    作者:HelloGitHub-小鱼干本周特推的 2 个项目都很好用,Realtime-Voice-Clone-Chinese 能让你无需开启变,即可获得一个特定的语。 这个可以是你朋友的,也可以是你网上下载的任意频。而 image-to-latex 则让你能快速地得到一个 Latex 代码,即便你不了解 Latex,上传一张公式截图即可。 拟工具,5 秒内特定并生成任意语内容。 :github.combabysorRealtime-Voice-Clone-Chinese1.2 图片转 Latex 代码:image-to-latex本周 star 增长数:450+New 不知道人学了 可检测:提供维度可读的统计数据。可扩展集成 Kubernetes Ingress、EaseMesh sidecar、Workflow 等生态。

    11430

    用AI打个电话骗走22万欧元,你的语只需5秒录

    据《华尔街日报》报道,今年 3 月份,一个不知名的黑客组织利用 AI 语技术打诈骗电话,结果成功骗到了 22 万欧元。? 只需 5 秒的录样本随着自然语言处理技术的进步,用 AI 合成特定人已经不是什么难事。? 今年 5 月份,搜狗在一场大会上展示了变功能,可以把任何人的转化成特定,让你的秒变志玲、马云、高晓松。而谷歌的一项研究甚至可以借助 5 秒钟的参照语任意语。 它是一个用于零样本(zero-shot)语的框架,只需要 5 秒钟的参照语。也就是说,如果你的录泄露出去,哪怕只有一小段,也很有可能会被坏人利用。 这与 Vanilla WaveNet 形成对比,后者每秒最能够生成 172 个步骤。在撰写本文时,WaveNet 的大数开源实现依然是 Vanilla 实现。

    32640

    做钥匙?!慢放开锁轨,黑客就能破解常用门锁,从33万种密钥中锁定3种

    比如上个月,黑客造成推特史上最严重的安全事故,马斯奥巴马等位大V账号被黑;或者像8月初英特尔的那起数据泄露事故,足足20GB数据被黑客泄漏。不过,黑客可不止会对大公司下手。 如果你有足够的影响力(),黑客很可能会盯上你。就比如,黑客们完全可以黑进你的智能门锁,轻而易举打开你的家门。文摘菌瑟瑟发抖(假装自己会被盯上的样子),那我还是用普通的门锁吧! 新加坡国立大学的研究人员表示,黑客可以站在你家门附近录下你开锁的;或者黑进你的手机,用他们设计的恶意软件远程录下你开锁的,然后你的钥匙。? 毕竟,如果是用传统的方法撬锁或用一种类似于“万能钥匙”的工具来开锁,都会在门锁上留下痕迹;但如果这项技术成熟后,要是被盯上了,很可能家里被偷了都不知道啊...话说回来,黑客竟然能通过出钥匙,这是什么操作 当然,出正确钥匙的条件也很苛刻,比如黑客需要事先“踩点”了解业主是哪种门锁;以及是否能准确录下业主开锁的频中是否有杂等。

    24530

    喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语合成表现

    贺雯迪:我目前在喜马拉雅担任频算法工程师,工作研发方向是TTS前端模块的搭建和优化(文本规整化、分词、字、韵律预测等),后端算法(基于深度生成模型的说话人风格转换,情感控制,、神经码器的优化等方向 如何让机器低成本地学习用户的,也就是你在演讲中将会提到的,这项语合成技术是如何做到通过量的语料模仿不同的呢?贺雯迪:样本以至于单样本、零样本学习在深度学习领域都是很重要的。 通过训练好的学模型,用户只需要输入一条几秒钟的个人语,就能出该用户的(通俗来说可以理解为embedded speaker里与该用户最相似的,最大程度去还原)。 当然还有更样本、零样本的研究趋势,其发展和落地依然处于行业内不断探索的过程。 并且随着8090后群体中二次元文化、网络文化等发展,游戏、虚拟偶像、虚拟主播、等更个性化场景也将运用到语合成技术。

    58220

    喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语合成表现

    贺雯迪:我目前在喜马拉雅担任频算法工程师,工作研发方向是TTS前端模块的搭建和优化(文本规整化、分词、字、韵律预测等),后端算法(基于深度生成模型的说话人风格转换,情感控制,、神经码器的优化等方向 如何让机器低成本地学习用户的,也就是你在演讲中将会提到的,这项语合成技术是如何做到通过量的语料模仿不同的呢?贺雯迪:样本以至于单样本、零样本学习在深度学习领域都是很重要的。 通过训练好的学模型,用户只需要输入一条几秒钟的个人语,就能出该用户的(通俗来说可以理解为embedded speaker里与该用户最相似的,最大程度去还原)。 当然还有更样本、零样本的研究趋势,其发展和落地依然处于行业内不断探索的过程。 并且随着8090后群体中二次元文化、网络文化等发展,游戏、虚拟偶像、虚拟主播、等更个性化场景也将运用到语合成技术。

    50730

    AI语诈骗银行高管,取2.2亿如探囊取物

    晴天霹雳的背后是AI语转换直到转完账之后,这位迪拜高管也万万没有想到,电话那头熟悉的老板的,其实是用语技术合成的。这桩诈骗案由福布斯报道,但受害者的名字和其他更细节没有透露。 例如在Github上大火的AI拟项目Real-Time-Voice-Cloning,能够在5s内你的并生成任意内容,还能直接下载或者自行训练合成器。这个视频就是基于该项目的训练成果。 开源项目可以直接从GitHub上直接获取:然后再录入一段你的和目标,打出想要读出的文本内容,就可以出一段输出频了。面对这样以假乱真的效果,也就不难理解这位银行高管为什么会被轻易诈骗了。 在前些时候,语转换技术就曾在央视节目《等着我》中出现,帮助退役年的袁爷爷,找回了当时在战场上一同作战的老排长的“”。 但是在各种科技公司研究语转换技术给人带来便利的同时,也需要谨防人工智能在网络犯罪中的恶意使用。如今已有数信息安全方面的创业公司关注到这一点。他们称可以检测出合成的语以防止诈骗。

    8420

    ——用深度学习实时别人的

    这时我们熟悉的谷歌(Google)又出现了,来自谷歌的研究绰号“语”(Voice Cloning)人工智能,它使计算机可以用任何读出信息。 语的工作原理很明显,为了让计算机能够大读出任何,它需要以某种方式理解两件事:它读的是什么以及它是如何读的。 因此,谷歌研究人员设计的语系统有两个输入:我们想要读取的文本和我们想要读取文本的语样本。 分别编码后,将语和文本组合在一个公共的嵌入空间中,然后进行解码,生成最终的输出波形。 代码亏了人工智能社区中开放源码思想的美妙之处,在这里有一个公开可用的语实现!你可以这样使用它。 这里还有一些频样本结果。我将高度存储库,并尝试一下这个很棒的系统! End

    2.7K20

    公司高层都在为CEO职位争得头破血流,而马斯竟把职位改成...

    马斯,很人心中的偶像,随着比特币价格的一路高歌猛进,似乎马斯的火箭事业又了不资金基础。 不过一向语不惊人死不休的马斯最近又一次进入大众眼帘并非是他的spacex火箭又出了什么幺蛾子,也不是特斯拉咋样了,而是他自己的公司头衔。很人肯定在想,什么?公司头衔?他不做CEO了吗? 并不是,而是最近,在特斯拉提交给美国证券交易委员会(SEC)的一份文件中,作为公司首席执行官(CEO)的埃·马斯和首席财务官(CFO)的扎·科霍恩,两人在公司的职位分别被改成了特斯拉电国王( 电国王?硬币大师?确定不是在玩任天堂的明星大乱斗? 真是要美人不要江山啊~小编又想酸酸的感叹一句,有 真好~所以这样想想,对于其电国王的称呼,似乎也不奇怪了把~你的看法呢?

    13720

    一个自己的 AI 来上网课,

    一开始,大家都很难发现出现在会议窗口的这位 Reed 是个「人」,不过,后面他说话生硬的语气瞬间翻了车。如果技术再精进一点,恐怕真能蒙混过关。照片、语识别库、虚拟摄像头,搞定! 他还贴心地给出了教程,发表在 GitHub:https:github.commcreedzoombot 他写道,事实证明,自己比《西部世界》里的大脑简单了。 AI:「我听不清你的。」人类:「再见。」AI:「以后再和大家聊。注意安全。」 只要外界有语触发就可以响应,然后配合脸部的动作给出答复。不得不说,这位工程师为了摸鱼也是很用心了。不想上网课?一个自己替你上看到这里,有位同学不禁想到:这招完全可以用在网课上啊! 为了逃避网课,不学生使出了十八般武艺(可回顾前文动图)。甚至有人在小破站上传了网课翘课技巧指南。?提醒:非专业人士,请勿模仿不过现在,有了 AI 技术,逃网课也可以变得很高级。

    31010

    2019深度学习语合成指南(下)

    利用小样本的神经网络语文章链接:https:arxiv.orgabs1802.06006v3这篇文章的作者来自百度研究院。 他们引入了一个神经语系统,它可以通过学习从频样本合成一个人的。系统使用的两种方法是说话人自适应和说话人编码。 说话人自适应是通过对个说话人的生成模型进行微调来实现的,而说话人编码则是通过训练一个单独的模型来直接推断一个新的嵌入到个说话人语生成模型。 本文采用Deep Voice 3作为说话人模型的基线。所谓,即提取一个说话人的特征,并根据这些特征来生成给定的文本所对应的频。生成频的性能指标决定于语的自然度和说话人的相似度。 作者提出了一种说话人编码方法,该方法能够从未曾见过的说话人频样本中预测说话人嵌入。?下面是的性能:??

    31030

    《轮到你了》的菜奈AI是如何的?

    传统TTS是基于拼接和参数合成技术,涉及非常的细节,比如以文本分析语言模型、语持续时间模型、学特征预测模型、将频谱恢复成时域波形的码器等等。 所谓“端到端”就是直接从文本合成语,不需要拆解出文本分析、语持续时间、学特征等子系统,只需准备[文本,谱]配对的数据集,即可进行训练。中文语数据集长什么样呢?? 如果不想这么麻烦,我们可以选择API调用的方式,百度ai或者讯飞都提供了类似的功能,也有种风格可选。04风格迁移这只是文本转语,如果我们想要让这个语可以按照某个人的输出,应该怎么办呢? 图像领域有风格迁移技术,受此启发,谷歌发布了一个可以任何人的模型。 综上,一款可以任何人的AI即将诞生。

    1K20

    现在你可以通过深度学习用别人的来说话了

    在使用深度学习创建TTS时,这有一个限制,你必须收集文本-频的数据集,而录制演讲的演讲者可能是固定的——因为你不可能有无限个演讲者! 因此,谷歌研究人员设计的语系统有两个输入:我们想要读取的文本和我们想要用来阅读文本的语样本。 在过去几年中,语合成系统在深度学习社区中得到了很研究关注。事实上,有很基于深度学习针对语合成的解决方案都非常有效。这里的关键是,系统能够将编码器从语中学到的“知识”应用到文本中。 在分别编码后,将语和文本组合在一个公共的嵌入空间中,然后进行解码,生成最终的输出波形。 的相关实现代码亏了人工智能社区中开放源码思想的美妙之处,在这里有一个公开可用的语实现! 首先仓库:git clone https:github.comCorentinJReal-Time-Voice-Cloning.git安装必要的库并确保使用的是Python 3的版本:pip3 install

    2.5K30

    结合AI和VR,这家公司要打造有感情的虚拟

    不同于传统的人形机器人,这类虚拟没有物理身体。致力于“个性化人工智能”的美国加州创业公司ObEN在与韩国娱乐公司合作为流行乐明星打造虚拟形象,让他们能够借助它来更地与粉丝进行互动。 虚拟还能够拥有情感能力,可应用于客服、医疗保健、教育等领域。ObEN公司是日本软银公司投资的第一家AI公司,之后还得到过来自腾讯的投资。 相反,它们要打造3D虚拟分身,赋予这种虚拟形象人的体型和,以及足够聪明的行动能力——目前至能够执行简单的任务:客服请求,大朗读,进行明星和粉丝之间的互动。 韩国流行乐组合最为红火,比如今年卖出100万张唱片的男子乐组合EXO。通过与明星经纪人和经理建立合作,ObEN能够获得非公开的数据,给明星们创建一对一的问答环节。 Soul Machines还计划向客户同时收取订阅费和会话费,收费具体取决于虚拟形象跟人进行对话。另一个商业化可能性是,向第三方开发者提供数字化人体的使用权。

    34170

    替身!仿真虚拟机器人能还你一个前女友?

    相反,它们打造的3D虚拟替身拥有人类的形态和,以及足够智慧的行动能力,目前至能够执行一些简单的任务:客服请求,大朗读,明星与粉丝之间的互动。 最受欢迎的韩国偶像团体是赚的主力军,例如男子乐组合EXO去年卖出了100万张唱片。通过与明星经纪人和经理建立合作,ObEN能够获得非公开的数据,给明星们创建一对一的问答环节。 Soul Machines还计划向客户同时收取订阅费和会话费,收费具体取决于虚拟替身跟人进行对话。另一个商业化可能性是,向第三方开发者提供数字化替身的使用权。 Reality Reflection的扫描设施例如,Soul Machines需要八个星期左右才能做出人的高清虚拟——他们的目标是,做得尽可能地逼真。 Zimmerman说,“前男友可以保留一个你的虚拟替身吗?这样在你离开他以后,他还能够常常跟你说话吗。那是你吗?你是不是该把它带走?对于这种问题,我们没有任何的界限。

    53170

    马斯宣布特斯拉破产,自己哭晕在车旁?

    马斯发推宣布:“尽管我们努力筹集资金,包括孤注一掷地大规模出售复活节彩蛋,但是我们很遗憾地宣布,特斯拉已经彻彻底底的破产了。破产到如此地步,你都不敢相信。”? 虽然这不是特斯拉第一次被唱衰,但是为何最近唱衰的如此之大,就连马斯也要借着愚人节的机会自我调侃一下?▌量产问题特斯拉目前最大的问题就是产能不足。 但是就算 Autopilot 2.0 功能不全,相比一些竞争对手可能落后了,但它是不是至应该比第一代系统更加安全? 明称,汽车的系统发出数次影像提示和一次提示,要求驾车人双手握住方向盘,但是行车日志显示,驾车人没有采取任何行动。 ▌缺的特斯拉 虽然很问题可以用解决,但是特斯拉现在缺的就是

    41060

    Python 深度学习AI - 模仿、模拟特朗普唱《See You Again》,Real-Time-Voice-Cloning项目的安装与使用

    Python 深度学习AI - 模拟第一章:环境准备与安装① Real-Time-Voice-Cloning 项目源码下载② requirments 必要库安装③ TensorFlow 安装 ④ PyTorch 安装⑤ FFmpeg 下载环境变量配置⑥ 下载训练包第二章:效果测试① 命令行合成频测试:输入频源和文本,合成目标② 工具箱合成频测试,工具箱的使用方法介绍③ 特朗普, 第二章:效果测试① 命令行合成频测试:输入频源和文本,合成目标由于官方提供的训练库是英文版的,所以如果频源是中文,或者合成中文内容效果不是很好,大家有兴趣的可以找一些中文训练包来进行测试。 这是项目里给的源示例,可以用这个来进行测试。 ? 合成后的频文件。 ?② 工具箱合成频测试,工具箱的使用方法介绍? ③ 特朗普,模拟特朗普讲话,特朗普唱《See You Again》特朗普频资源获取: 小蓝枣的 csdn 资源仓库 这是歌曲 《We Cant’t Stop》,合成的效果还不错,有的歌涉及断句的

    1.8K31

    相关产品

    • 声音定制

      声音定制

      声音定制(CTTS)为您提供深度定制音色的服务。通过先进的深度学习技术,更快、更高效地提供声音深度定制服务,提供更专业、更贴合场景需求的音色服务。

    相关资讯

    热门标签

    扫码关注云+社区

    领取腾讯云代金券