前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一段语音生成说话视频,连发际线都可以分好几种,网友:利好视频博主

一段语音生成说话视频,连发际线都可以分好几种,网友:利好视频博主

作者头像
量子位
发布2023-03-10 13:55:38
2580
发布2023-03-10 13:55:38
举报
文章被收录于专栏:量子位量子位
杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI

只需一段语音,就能生成说话视频。

就像这样。

可以看到,表情、动作、神情全都在线,还有不同的穿搭。

就连发型、甚至发际线,都可以不同。(手动狗头)

视频里的主人公,是美国一著名主持人John Oliver,这是他主持的一档节目《Last Week Tonight with John Oliver 》。

而这样一个视频生成效果,在Reddit上热度达580+。

不少网友表示:那这样,是不是视频博主就从此省事了?!

别着急,先康康研究怎么说。

论文详情

能实现以上效果的,是一个NWT生成器,用表征学习来实现音视频生成。

它由两个模型组成。

一个用于离散潜在表示的视频自动编码器dVAE-Adv。另一个自回归先验模型,用来生成新视频。

此外,这一生成器可以控制生成的视频中的潜在属性,这些属性在数据中是没有标注的。

首先,自动编码器dVAE-Adv,将视频帧从256×224压缩到一个16×14的潜在空间。

生成的每个潜在网格元素称为Memcode,每个Memcode在像素域中携带了大约768个元素的信息。

而自回归模型则作为编解码器模型,能从离散分类分布中自动采样,将音频转化为视频。

研究人员采用的数据集,则是来自这位主持人的节目——《Last Week Tonight with John Oliver (LWT)》组成。

不过这些视频样本是经过处理的,研究人员将其分成了16127个视频片段,平均长度为7.46秒。

最终在主观评价测试中,这一方法都明显优于以往的唇语、脸部生成任务。

研究人员表示,这个研究是对话式人类视频合成技术上的一个新突破,展现了未来将普遍应用的潜力。

srds(虽然但是),目前这个模型还是有一定局限性。

比如,不能用其他人声音来生成。

对此作者回应道,尝试过,但唇语同步会有影响。

还有网友注意到,视频中人的手很奇怪。

作者则表示,跟GAN出现的问题不同,主要是由自回归生成过程中的错误分类造成的。

接下来,他们将进一步扩大数据集和模型,来处理不同个体。还有一个想法就是,给定一个框架或部分图像,模型能够模仿一个特定的情节。

论文地址: https://arxiv.org/pdf/2106.04283.pdf

参考链接: [1]https://next-week-tonight.github.io/NWT_blog/ [2]https://www.youtube.com/watch?v=HctArhfIGs4

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

免费报名 | 英伟达CV公开课

6月17日英伟达专家将通过展示「快速搭建手势识别系统」实例,带大家低门槛、高效率学习AI模型的搭建、训练与部署。

p.s 报名后可入群获取系列CV课程直播回放PPT源代码哦~

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 论文详情
相关产品与服务
访问管理
访问管理(Cloud Access Management,CAM)可以帮助您安全、便捷地管理对腾讯云服务和资源的访问。您可以使用CAM创建子用户、用户组和角色,并通过策略控制其访问范围。CAM支持用户和角色SSO能力,您可以根据具体管理场景针对性设置企业内用户和腾讯云的互通能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档