前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >视频技术10大进展@2020

视频技术10大进展@2020

作者头像
用户1324186
发布2021-01-11 15:46:22
1.3K0
发布2021-01-11 15:46:22
举报
文章被收录于专栏:媒矿工厂媒矿工厂

媒矿工厂盘点了本年度视频技术的一些代表性技术,总结成以下10个方面。

1.新一代视频编码标准正式公布

MPEG本年度输出三项标准:

(1) Versatile Video Coding (VVC, H.266);

(2) Essential Video Coding (EVC, MPEG-5 Part 1);

(3) Low Complexity Enhancement Video Coding (LCEVC, MPEG-5 Part 2)

参考:

【1】https://ottverse.com/vvc-evc-lcevc-mpeg-video-codecs/

2.基于深度学习的图像/视频/数据压缩蓬勃发展

深度学习端到端压缩的研究和讨论在学术界和工业界得到充分重视,MPAI社区的建立,JPEGAI工作组的技术征集,CVPR CLIC大赛的火热,SMPTE-VC6的制定都充分说明。

参考:

【1】Moving Picture, Audio and Data Coding by Artificial Intelligence (MPAI):https://mpai.community/

【2】CVPR CLIC workshop: https://www.compression.cc/

【3】VCIP2020: http://renyang-home.github.io/papers/VCIP_Tutorial.pdf

【4】JPEG AI: https://jpeg.org/jpegai/index.html

【5】SMPTE VC6:

https://www.rapidtvnews.com/2020100559155/smpte-vc-6-video-production-codec-standard-published.html

3.视频会议场景下人脸视频编码技术取得突破

英伟达率先发力,Facebook紧跟其后,核心技术在于GAN人脸生成技术的进展,将其应用在视频会议特定领域,也是顺利成章。

参考:

【1】NV方案:Ting-Chun Wang, etc., One-shot free-view neural talking-head synthesis for video conferencing, arXiv:2011.15126,2020

【2】FB 方案:Maxime Oquab et., Low bandwidth video-chat compression using deep generative models, arXiv:2012.00328, 2020.

4.视频流媒体传输协议/规范的发布及应用

流媒体直播进入低延迟时代,端到端延迟下降到小秒级(~3s),互联网上广泛使用的还是HLS和DASH,这两大阵营今年都对技术规范做了更新和发布:DASH IF: Guidelines on Low Latency, 2020/3/27,Apple: Protocol Extension for Low-Latency HLS., 2020/05/04。

此外,DVB推出的DVB-I和Multicast ABR 给OTT服务发现和互联网IP多播定义了新的技术规范;SRT联盟继续扩大,SRT协议在上行侧广泛部署,与之竞争的是VSF联盟的RIST协议,也给了开源参考实现,大有赶超势头。IETF QUIC和HTTP/3继续演进,在Chrome和Facebook得到广泛部署, 目前全球4.1%的网站开始支持HTTP/3.

参考:

【1】

https://developer.apple.com/documentation/http_live_streaming/enabling_low-latency_hls

【2】https://dash-industry-forum.github.io/docs/CR-Low-Latency-Live-r8.pdf

【3】https://dvb.org/news/etsi-publishes-dvb-dash-with-low-latency-and-hdr-dm/

【4】https://dvb.org/news/dvb-i-and-dvb-mabr-published-as-etsi-standards/

【5】https://www.srtalliance.org/

【6】https://www.rist.tv/

【7】https://tools.ietf.org/html/draft-ietf-quic-http-33

【8】https://w3techs.com/technologies/details/ce-http3

【9】https://engineering.fb.com/2020/10/21/networking-traffic/how-facebook-is-bringing-quic-to-billions/

【10】https://blog.chromium.org/2020/10/chrome-is-deploying-http3-and-ietf-quic.html

5.视频流媒体核心技术ABR算法研究平台及新Benchmark

Puffer是斯坦福大学的一项开源研究项目。NSDI20会议发表基于机器学习的新ABR算法Fugu,获得community reward paper,提供开源平台供研究人员进行拥塞控制及ABR算法测试。Puffer考虑应用层ABR和传输层TCP拥塞控制的联合优化,将之前较为独立的两个研究领域结合起来,具有非常好研究前景。

参考:

【1】项目:https://github.com/StanfordSNR/puffer

【2】论文:https://www.usenix.org/conference/nsdi20/presentation/yan

6.低延迟视频互动直播架构演进到1s~500ms

1秒及以下的大规模视频互动直播架构,WebRTC方案是不二选择。中国两大互联网巨头腾讯云和阿里云均选择对标准WebRTC进行改造和升级,满足直播场景需求。腾讯推出快直播解决方案;阿里推出GTNR(global realtime transport network)方案,且集成基于强化学习新型拥塞控制算法OnRL (发表于MobiCom)。

参考:

【1】https://blog.csdn.net/vn9plgzvnps1522s82g/article/details/109348627

【2】https://blog.csdn.net/Taobaojishu/article/details/111189128

【3】OnRL:https://dl.acm.org/doi/abs/10.1145/3372224.3419186

7.视频流媒体QoE评价规范更新及应用

VMAF作为Netflix开发的新兴视频质量评估工具,已被广泛用于动态影像内容的质量评估以及编码优化当中。目前VMAF已推出HDTV、Phone、4K三种使用模式,满足不同播放场景下的画质评测需求,近期还将扩充针对HDR的VMAF模型。

此外,ITU-T今年也推出了新一代流媒体无参考视频质量评估模型P.1204,适用于H.264、H.265和VP9编码的UHD/4K、60fps、10bit视频序列,该模型可以部署在分发系统中的任何位置,性能可以与全参考模型媲美。

参考

【1】VMAF: https://github.com/Netflix/vmaf

【2】P.1204: Video quality assessment of streaming services over reliable transport for resolutions up to 4K , https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204

【3】P.1204.3: Video quality assessment of streaming services over reliable transport for resolutions up to 4K with access to full bitstream information https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204.3

【4】P.1204.4: Video quality assessment of streaming services over reliable transport for resolutions up to 4K with access to full and reduced reference pixel information https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204.4

【5】P.1204.5: Video quality assessment of streaming services over reliable transport for resolutions up to 4K with access to transport and received pixel information https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204.5

8.基于深度学习的图像视频的恢复、增强技术稳步前进

超分方面,代表性的是AIM-2020 efficient SR 的冠军 RFDN;超帧方面,代表性的是实时性很好的RIFE;增强方面,代表是香港理工的Adaptive 3DLUT;上色方面,代表性的是微软的DLST。

将Transformer扩展应用到low-level问题上,也有不错的进展。北大的预训练IPT占领多个图像恢复任务的榜首;东南的ConvTransformer率先用于视频帧合成。

低层任务方面,时间域的光流估计是基础性技术,ECCV的Best paper, RAFT值得关注。

参考:

【1】https://github.com/hzwer/arXiv2020-RIFE

【2】https://rife-vfi.github.io/

【3】https://github.com/HuiZeng/Image-Adaptive-3DLUT

【4】https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life

【5】Pre-Trained IPT,https://arxiv.org/abs/2012.00364

【6】ConvTransformer, https://arxiv.org/abs/2011.10185

【7】https://github.com/princeton-vl/RAFT

9.GAN大法继续演化,可生成更逼真的图像/视频

英伟达的新版StyleGAN,解决之前生成图像中经常存在伪影的问题,生成非常逼真的图像,此外图像部分属性(style)实现解耦的能力催生了大量利用其进行图像编辑的工作,例如非常火爆的图像创作工具 artbreeder (https://www.artbreeder.com)

香港科大的InterFaceGAN,提出潜在空间结构GAN生成空间的方法,可泛化迁移到所有GAN生成的各种人脸样本空间,包括属性编辑、风格转换等。

上海科大的Impersonator++,设计了人体合成框架,结合3D mesh重建和GAN,可以同时实现动作迁移、新视角合成以及外观转换。

与此相关的是生成图像的检测和安全问题。这方面,微软的Face X-ray技术,提出通用的检测不同模型生成的合成图的方法,核心是去学习换脸的边界,方法泛化性能优良;芝加哥大学的Fawkes技术,可为私人照片提供人眼不可见的像素级保护,避免用户被未知第三方人脸识别模型检测并追踪。

参考:

【1】https://github.com/NVlabs/stylegan2

【2】https://github.com/genforce/interfacegan

【3】https://github.com/iPERDance/iPERCore

【4】Face X-ray,https://arxiv.org/pdf/1912.13458.pdf

【5】Fawkes,https://www.shawnshan.com/files/publication/fawkes.pdf

10.神经渲染大法成为新的研究热点

代表性的工作是 ECCV'20 的NeRF ,获得Best Paper Mention, 发表9个月来已经被收藏2.8k次,基于NeRF也出现了NeRF++,NeRF-W等改进,已经成为新的baseline. NeRF网络特点轻量,主要方法是基于辐射场的体素渲染(Volume Rendering with Radiance Fields)。输入3D物体的一系列稀疏帧和对应的相机参数,NeRF能得到该物体其他角度的图像,相比于之前的方法,虚拟视角的细节有较大改善,PSNR等定量指标也有较大提高。

参考:

【1】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

【2】https://github.com/bmild/nerf

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-12-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云直播
云直播(Cloud Streaming Services,CSS)为您提供极速、稳定、专业的云端直播处理服务,根据业务的不同直播场景需求,云直播提供了标准直播、快直播、云导播台三种服务,分别针对大规模实时观看、超低延时直播、便捷云端导播的场景,配合腾讯云视立方·直播 SDK,为您提供一站式的音视频直播解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档