前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >通过文本实现人脸通话视频的超低比特率压缩

通过文本实现人脸通话视频的超低比特率压缩

作者头像
用户1324186
发布2022-03-08 13:16:27
8140
发布2022-03-08 13:16:27
举报
文章被收录于专栏:媒矿工厂

目录

  • 背景介绍
  • Txt2Vid 方法介绍
  • 结果展示

背景介绍

图1 问题背景

视频流代表了当今互联网流量的大部分份额,估计高达 80% 。随着新冠疫情的爆发,互联网服务的使用量激增(50 - 100%),Zoom 等视频会议工具的使用量增加了 10 倍。一个典型的视频会议通话会消耗从 100 Kbps 到几 Mbps 的带宽。不幸的是,世界上绝大多数人口无法访问高带宽网络连接或面临间歇性连接问题。

图2 需求举例

这是一个正在使用 Zoom 进行视频通话的例子。Alice 和 Bob 正在进行通话,Alice 发现 Bob 的视频卡住了,然后 Bob 关掉了视频,跟 Alice 进行语音通话。虽然通话可以正常进行,但 Alice 仍然希望能够看到 Bob 正在通话的人脸,这就是视频通话的需求。

图3 不同信息载体的带宽对比

从图 3 可以观察到,与传输视频相比,传输音频可以节省 10 倍的带宽。如果传输文本,则可以节省更多,相较于视频可以节省 100 倍到 1000 倍的带宽。于是我们想到,可以将网络摄像头产生的音视频转化为文本传输,从而节省带宽。

图4 评价指标

传统的评价指标只针对单个样本的保真度(单个音频或单个视频),例如 PSNR。最新的趋势是用主观评价指标来评价,例如 VMAF,但并没有一个主观评价指标可以同时评价音频和视频。一个简单的想法是,视频更重要,只看视频的指标即可,但这并不总是正确的。例如,DEMUXED 2021 的记录指南上写道,音频质量比视频质量更重要。为了同兼顾视频和音频体验,在我们的工作中,我们使用总的体验质量(QoE)作为评价指标。

Txt2Vid 方法介绍

图5 demo 展示

那么我们是否可以将音视频转化为文本传输并将文本还原回视频,在跟标准编码器比较的情况下,使用更少的带宽达到相同的 QoE 呢?答案是可以。从图 5 中可以看到(文末附带的原视频中可以看到图中两个视频的比较),两个视频的主观质量相近,但占用的带宽的相差极大。通过我们方法传输的视频仅需 100 bps,而通过 H.264 传输视频,AAC 传输音频的方法需要 100,000 bps,两者相差 1000 倍。

图6 方法流程图

在传统的方法中,传输一段音视频需要在发送端对音频和视频分别进行编码处理,然后将编码后的音频和视频同时传输到接收端解码还原出原视频。而我们提出的 Txt2Vid 方法则完全不同,该方法分为两步。首先是将一段很短的驱动视频( 30 秒左右)传输到接收端,需要注意的是该操作只进行一次,后续传输过程无需再传输驱动视频。由于在接收端会有很多不同人脸的驱动视频,因此每段视频都需要用 User ID 标记。第二步是将音频转换为文本,并为文本标记上跟驱动视频相匹配的 User ID。传输过程仅仅传输文本,在接收端将文本转换为音频,并用音频和驱动视频生成最终的人脸视频。由于驱动视频可以事先就传输给接收端并且驱动视频其实很短,因此在计算码率时,只考虑传输的文本的码率。比较两种方法可以看到,Txt2Vid 的方法传输的码率是传统方法的 1 / 1000

图7 解码端工具

在解码端有两个主要的软件,一个负责将文本转换为音频,一个负责用音频和驱动视频实现嘴唇运动合成。尽管有很多工具可以实现这两个功能,但是经过比较,我们选择用 RESEMBLE AI 实现文本向音频转换,用 Wav2Lip 实现嘴唇合成,这两个都是开源工具。

结果展示

图8 比较时使用的数据

在对结果进行比较时,我们选择了 6 段不同的内容,并用当前最先进的编码器分别对视频(H.264 和 AV1)和音频(AAC)进行编码,最后比较 84 个基准音视频和 6 个 Txt2Vid 合成的音视频的主观质量。

图9 主观评价

我们选择了 242 个志愿者进行主观评价,我们每次都从基准视频和 Txt2Vid 视频中分别随机选择一个进行比较,每个参与者都进行了 40 次比较。

图10 与 H.264 + AAC 比较

图 10 展示的是与 H.264 + AAC 比较的结果。图中 X 轴表示压缩率,Y 轴表示 Txt2Vid 的偏好程度。图中蓝色的虚线是 50 % ,表示 Txt2Vid 的偏好程度与 H.264 + AAC 相同,即主观质量相同。从图 10 中可以看到,在等质量的情况下,Txt2Vid 可以节省 1000 倍的码率。

图11 与 AV1 + AAC 比较

图 11 展示的是与 AV1 + AAC 比较的结果。从图 11 中可以看到,在等质量的情况下,Txt2Vid 可以节省 200 倍的码率。这是由于 AV1 是更好的视频编码器。

图12 Demo 展示

演讲的最后,Pulkit 展示了 Txt2Vid 的功能,输入一段文本后,Txt2Vid 可以将文本转换为音频播放,并驱动人脸的嘴唇运动,主观质量较好。

图13 一些缺点

同时,他也提到了目前 Txt2Vid 的一些缺点。首先是解码端点计算复杂度高,但 Pulkit 相信随着硬件的进步以及模型的进步会减少解码的复杂度。其次是延迟的问题,文本转为音视频并不能达到实时的效果。最后是社会的接受度以及安全的问题。

附上演讲视频:

http://mpvideo.qpic.cn/0b2ekaaamaaa6uaj4bqlsnrfaugdaziaabqa.f10002.mp4?dis_k=0a9effde66813e57309108df09708991&dis_t=1646716405&vid=wxv_2270542358889054217&format_id=10002&support_redirect=0&mmversion=false

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景介绍
  • Txt2Vid 方法介绍
  • 结果展示
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档