前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Zoe Liu:传统算法与深度学习各有所长

Zoe Liu:传统算法与深度学习各有所长

原创
作者头像
LiveVideoStack
修改2019-11-29 10:12:30
9840
修改2019-11-29 10:12:30
举报
文章被收录于专栏:音视频技术音视频技术

第一次MSU视频编码大赛就取得了“主观评分”第一,微帧团队到底做了哪些创新的尝试?深度学习真的是编解码的未来吗?LiveVideoStack通过邮件采访了微帧联合创始人Zoe Liu,向我们揭开参加MSU视频编码大赛背后的故事。

文 / ZoeLiu

策划 / LiveVideoStack

LiveVideoStack:Zoe你好,这是第二次和你通过邮件采访的方式对话,和上次对话不一样,你的身份已经发生了变化。能否借此向LiveVideoStack的读者介绍下自己?

Zoe:嗯,上一次我还是在谷歌做软件工程师,现在已经是微帧团队的联合创始人了。我是去年2018年7月从谷歌离职,跟我的合伙人朱政一起创建了微帧科技(Visionular)。时间逝去还是蛮快的,我从谷歌离职时,正好是开放媒体联盟(AOM)新一代开源视频编码标准AV1刚刚结束并推出的时候。我们微帧,现在在杭州和硅谷同时设置有研发团队,并在北京设有专注于产品、运营和市场的团队。我们主要致力于视频AI+编码和处理技术的打造,提供面向企业的相关产品和服务,力图视频带宽需求更小、画质更清晰的极致解决方案。我们在做AV1编码内核优化的同时,也对H.264等主流编码标准,推出了智能编码和处理引擎,结合AI技术在视频处理和编码的多个环节,推出了不同形态的产品,包括私有云部署解决方案,以及公用云SaaS方案的尝试。

在微帧之前,我曾就职于谷歌5年,是AOM/AV1的主要贡献者之一。从学校到现在,对图像/视频编码标准及相应编解码器优化技术,有相对比较长时间的研发经历。我曾参与过苹果公司的FaceTime、TangoMe跨移动平台VideoCallAPP、以及GoogleGlass的VideoCall研发和最终的delivery。之前还曾在一些实验室工作过,包括BellLabs,NokiaResearchCenter,SunLabs,以及HPLabs。

我跟LiveVideoStack音视频社区算是很有缘份吧。2017年10月是LiveVideoStack推出的第一次技术大会,当时我还是代表谷歌来做AV1相关的Keynote,结果机缘巧合碰到了我的合伙人,也看到了国内音视频领域的迅猛发展,此后一步步,改变了我的职业道路,开始加入了创业者的行列。之后的每一次LiveVideoStack大会,我都没有缺席过。LiveVideoStack目前也成长为国内公认的音视频领域最有影响力的技术社区了。我们很期待跟LiveVideoStack一起的成长。在这里,也很期待与业界前辈和朋友们更多的交流,一起推进技术的演进和发展。

LiveVideoStack:Visionular的AV1Codec在2019年MSU视频编码大赛“主观评分”中排名第一,也是此次参赛的唯一的AV1代表。能聊聊这背后的故事吗?

Zoe:前面有提到,我们团队的核心,是对视频编码以及将AI应用于视频编码算法和技术上的打造。我自己从谷歌AV1团队出来,经历了AV1从无到有的整个周期,我们微帧也是中国市场上与爱奇艺同时加入AOM最早的两家会员。

我们去年团队成立伊始,就有跟谷歌合作,对于AV1目前最具代表性的开源codebase、名为libaom的优化,有比较多的贡献。libaom里面有200条以上的代码贡献,均来自于我们的团队成员,既包括对AV1标准本身的贡献,也有对libaom编码器的早期加速。与此同时,我们参与了AOM比较多的生态建设。AOM前主席MattFrost先生在去年、今年两次莅临杭州,都有跟我们的团队当面交流。

AV1不仅是开源的编码标准、不涉及版权,编码工具打造上也具有一定的先进性,MSU早些时候的评估数据,即呈现了AV1相对于H.265、VP9等主流编码标准的标准优势。另外,AOM成员,包括有海外主要的视频内容制作商,诸如YouTube、Facebook等UGC平台,Netflix、AmazonPrimeVideo等PGC平台等;咱们国内的互联网巨头企业阿里巴巴、腾讯等也相继成为AOM的重要成员。

尽管AV1的生态,在标准制定不久后确实还需要一定时间的积累;其实,现在Chrome等主流浏览器都早已支持AV1的解码播放,AndroidQ也会全面支持AV1,移动端、尤其Android端的解码芯片在全力打造,再加上苹果也是AOM成员之一。我们相对对AV1的优化研发,起始的比较早,外加我们的团队在H.265等编码器优化上的积累,在AV1上的努力会相对超前一些。我们现在不仅针对点播场景,还包括直播、RTC场景,都在努力的将AV1实现产品落地。我们在技术打磨的同时,非常关注客户的实际需求。

我们在今年阿姆斯特丹全球最大的IBC媒体技术展会上,被GoogleCloud邀请,特别介绍了我们的AV1技术和相应的产品。在9月的杭州阿里云栖大会上,我们也参与了5G+视频为主题的圆桌论坛,与其他业界的学者和技术同仁探讨各类视频编码标准的发展前景。在10月旧金山举行的AOM全球第一次Summit上,我们也被AOM邀请,介绍了我们AV1的技术概况以及性能更新。这次AOMSummit的全部演讲PPT已在AOM网站上分享(https://aomedia.org/aomedia-research-symposium-2019/),其中对AV1编解码优化发展现状,下一代标准AV2规划,以及AI+编码技术,均有一定的探讨。

我们参与MSU评估,最主要的初衷,是希望可以在MSU严格、客观的视频编码评估流程中,检验一下我们自己编码器的性能。MSU测试有比较严格的编码速度要求。即使是慢速档,包括主观评估档,他们均要求对于他们内部给定的1080p视频,在一定的机型上面,达到编码速度每秒一帧的指标。MSU这次的报名截止日期是今年3月底,当时我们还在AV1全力优化的相对早期阶段,AV1编码工具相对复杂,提速的同时保持编码性能,确实是充满了挑战的。我们能代表AV1标准参比,有我们自身的努力,同时也很感谢AV1的开源社区。AV1开源代码,包括liabom、SVT-AV1的打造,提供给了大家许多的借鉴。我们是站在巨人的肩膀上向上走的。

LiveVideoStack:我注意到Visionular只出现在“主观评分”报告中,没有出现在“客观评分”报告中,这是什么原因?

Zoe:我们的编码器优化,包括我们集中研发主力在AV1上的优化,以及我们对264编码技术和产品的进一步打磨,主要是针对客户需求推进的。我们是一家2B企业,我们的研发和技术是客户需求反推的。我们的客户最关注的,是视频的主观质量,因此我们的产品以及背后的研发算法,主要也是针对主观质量优化展开的。这应该是我们在MSU主观评估类别上表现突出的一个原因。

今年的MSU“HEVC/AV1VideoCodecsComparison2019”评估报告,分为免费版和企业版。企业版提供详尽完整的报告,可以从如下链接中付费获取。

http://www.compression.ru/video/codec_comparison/hevc_2019/

MSU近两年免费公开版,只给出基于客观质量评估指标SSIM的评估结果。如果可以看到MSU完整的客观数据报告,就会看到MSU按照3种客观质量评估指标,包括SSIM/PSNR/VMAF的详尽评估结果,包括客观质量评估类别中,我们在100个不同1080p视频上的具体编码性能数据,以及相应指标下的排名。

我们在客观质量评估中的表现,虽然没有主观质量评估类别中的结果那样显赫,却同样是有相当的竞争力的,尤其是在YComponent的PSNR数据上的表现,可圈可点。PSNR的评测数据需要在MSU企业版中才可以看到。

前面有讲到,我们参比,主要是想检验一下我们自己的编码器,并没有为比赛而比赛的想法。MSU评估分为多个类别,我们今年主要参加两个类别:一是主观质量类别评估,另一个名为Rippingusecase类别,主要是指慢速档。这两个类别,均要求视频编码速度必须达到1fps,即一秒内要完成对指定1080p视频一帧图像的编码。对于AV1来讲,这个挑战还是蛮大的,因为AV1相比VP9,增添了70+新的编码工具,编码决策复杂度大幅提升,需要达到这个编码速度、同时保持标准优势,让AV1足够体现它的标准优势,并不是很轻而易举的事情。

我们客观指标下的数据,在一些视频序列中确实出现了badcase,一些RD曲线表现异常;在MSU主观类别测试中,应该是我们相对幸运,这些badcase并没有出现那么频繁。

MSU每年的测试评估,相对非常全面而细致,评测周期也比较长。现在看到的MSU评测结果,是我们今年3月底提交的WZAuroraAV1编码器的性能结果。我们一直在持续优化,包括编码速度、编码性能,以及编码器的多线程、内存损耗等多项指标,我们在全方位的提升。与此同时,我们在WZAurora上增添了不同的速度档,针对点播、直播、RTC实时等不同应用场景,我们均在做努力细致的打造。期待未来我们会有更好的成绩,尤其期待我们有更优质的产品,可以提供给我们的企业客户。

LiveVideoStack:你认为,AI压缩技术有可能追赶甚至超越传统的编码技术吗?

Zoe:AI多媒体压缩技术,目前在图片领域,应该是早于视频开始尝试的。尤其是基于各种深度神经网络模型的图片压缩尝试,在颠覆传统的图片编码技术,取代小波变换、DCT变换,并取得了与传统图片编码框架相近或相当的编码性能。目前完全基于机器学习的图片编码技术,还没有进入编码标准,也没有非常成熟的产品落地,主要受限于编解码的复杂度,但确实表现出一定的潜力。

机器学习应用于视频编码,业界一直有许多的尝试,包括AV1开源编解码codebase中,会有不少实现范例。大家可以checkAV1的开源codebaselibaom中每次贡献的CL(ChangeList),在comment中查询NeuralNetworks等关键字,应该会看到不少机器学习的实际应用,包括码控的优化,RD指标的快速估算,基于NN的快速编码算法等。不过视频相比图片,增加了一个时间维度,相应编码算法的overall复杂度是数量级上的区别。在最新视频编码标准VVC(akaH266)、AVS3、AV1等编码工具提案以及相应参考模型的开源实现中,我们了解到的基于机器学习的AI算法工具,主要是在传统混合编码框架下(运动估计+2D变换),对于编码各个模块的进一步优化,并没有颠覆视频编码的基本架构。

AI的出现,5G的大规模推广,应该会给视频带来许多新的展示方式,包括Stadia云游戏平台的推出,未来VR与全景视频的深度推广,视频编码后续应该会与AI技术有更多的耦合,尤其是编码与视频分析、处理的综合自适应运用。不同视频内容的细分类,有可能会出现更为专注的编码工具,比如针对屏幕内容、游戏内容、动漫内容等的特定编码工具,以及基于ROI(感兴趣区域)的编码算法等,可以相对自然的引入视频内容的分类以及特定物体的检测,这些都给AI与编码的结合提供了比较广阔的空间。

我们是以技术打造为核心的企业,很多时候,我们会比较看重传统视频编码、处理算法,与机器学习算法的结合。我这里给大家举一个实例:我的一位清华同系创业的师兄,几年来一直在专注打磨眼球跟踪、FOV检测的穿戴式软硬件一体的产品,他们目前已经可以做到识别出人在读书时眼睛在文字上扫描的pattern(包括移动速度、移动平稳度、变换方向等),也可以在博物馆等大空间场景下检测出眼睛所关注的物体。他们目前的核心算法,并没有用到当下比较hot的深度学习技术,而是基于传统的计算机视觉和模式识别技术实现的。我用这个实例,是想突出下传统算法的价值和潜力。大家公认的机器学习应用比较成功的几大场景,包括计算机视觉、自然语言处理(NLP)、大数据分析等,而在计算机视觉这一机器学习如此被追捧的领域,传统算法同样拥有许多突出的优势。视频编码,其实是有更多将深度学习和传统算法可以融合的领域,值得我们去探寻的。

LiveVideoStack:最近我体验了TutorABC的AV1客户端(浏览器),上直播课的延迟完全可以接受,但只能在PC端应用,无法部署在移动设备上。关于AV1的移动端硬件编解码支持有最新的消息可以分享吗?

Zoe:很开心听到你们也体验了AV1在TutorABC平台上的实用展示。我们与TutorABC团队合作,一起将AV1RTC档推到了他们的在线平台,应该是在线教育场景中AV1的第一款部署上线产品了。在线教育大课场景一般是以教师端视频为主,并且PC是老师主要采用的设备,可以充分支持AV1编码;解码端我们则是采用开源AV1解码器dAV1d,在Android和iOS移动设备上支持是没有问题的。

AOM成立之初,AV1最早的版本是由VP9衍生而来,一定意义上讲,VP9可以看成AV1的一个子集。将AV1中计算复杂工具悉数关掉,即可推出AV1编码快速甚至实时档,但与VP9的编码性能可能只会差之毫厘。我们将AV1推到RTC场景,是希望保持AV1的标准优势,同时缩短首屏时间,减少编码所需占用的CPU以及memory资源。我们力求相同质量条件下,可大幅降低码率以减少视频卡顿,或从另外的角度,相同带宽、码率条件下,可提供更加高清的画质,从而最终服务于用户体验的提升。

视频目前在移动端上的实用,确实占比是主要的。AV1开源软件解码器dAV1d,已经在移动端表现了相当大的潜力。我们当然也很期待,可以把AV1软件编码方案尽快推到移动端,但还需要一段时间的打磨的。

硬件编解码器的支持,尤其是硬件解码器在手机终端的支持,是AV1生态推广中非常重要的一环。AOM中的主要硬件厂商,都有在研制AV1编解码相关芯片。其中Realtek、Broadcom等,是比较早推出AV1硬件解码IP原型的厂商。高通(Qualcomm)、联发科(Mediatek)等非AOM成员厂商,应市场趋势,也同样在打造相关的芯片方案。我们从手机厂商了解到的讯息,解码芯片2020上半年预计会大规模推出,尤其是针对Android平台的。iOS上的支持,以苹果的风格,永远都会是在其产品已经完全ready时才会公诸于世,不过苹果早已是AOM成员,一定程度上体现了他们对于AOM/AV1这一开源编码标准的支持立场。在已经正式开始讨论的AV2编码标准前期策划中,苹果也是AOM中非常活跃的一员。

另外,也有业界人士提到,电视终端,有可能先于移动端,推出AV1的硬件显示设备。

编码芯片,包括面对IPC、移动手机终端的芯片产品,应该会接踵而至的。业界早有注意到,包括谷歌、华为海思等团队,很早就开始跟进AV1的标准制定,跃跃欲试于AV1编码芯片的打造了。我们也直接了解到,其他厂商的AV1编码IP和产品,也已经跟市场上相应的终端客户以及云厂商,在实际售卖交易阶段。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档