本次分享的内容是关于在AI + 5G时代下视频、图像处理等技术的发展情况,以及在5G技术与人工智能的加持下,视频处理,图像处理等技术的发展方向。本次分享侧重于硬件以及芯片方面,将更多地介绍关于硬件设计、驱动、并行架构等方面的内容。
雷锋网 AI 研习社按,2012 年,AlexNet 横空出世,以 15.4% 的低失误率夺得当年 ILSVRC(ImageNet 大规模视觉识别挑战赛)冠军,超出亚军十多个百分点。AlexNet 开启了深度学习黄金时代,随之而来是深度学习在图像识别上的蓬勃发展:
说到图像压缩算法,最典型的就是 JPEG、JPEG2000 等。 图 1:典型图像压缩算法 JPEG、JPEG2000 其中 JPEG 采用的是以离散余弦转换(Discrete Cosine Tra
数据压缩是保留相同或绝大部分数据前提下减小文件大小的过程。它的原理是消除不必要的数据或以更高效的格式重新组织数据。在进行数据压缩时,你可以选择使用有损方法或无损方法。有损方法会永久性地擦除掉一些数据,而无损方法则能保证持有全部的数据。使用哪类方法取决于你要让你的文件保持多大的精准度。
选自TechTalks 作者:Ben Dickson 机器之心编译 编辑:Panda 修图靠 Photoshop,修视频靠英伟达。 前段时间,Adobe 推出了一个名为「Neural Filters 」的工具包,将 AI 论文中常见的上色、换表情、改年龄、超分辨率等效果统统打包,集成到了 Photoshop 中,让用户动动鼠标就能用上这些功能。当时就有人问:「视频能 p 吗?」 作为一款主打图像处理的软件,Photoshop 或许没有办法很好地回答这一问题。但同样深耕于计算机视觉、计算机图形学的英伟达用行动
近年来,视频内容几乎占据了所有互联网流量的80%。因此,为视频存储和传输设计高效的视频压缩方法至关重要。传统的视频编码标准,如 AVC, HEVC 和 VVC 等,都是在过去几十年中基于块分割、线性离散余弦变换(DCT)等手工设计模块搭建的。最近,研究者对基于深度学习的视频压缩方法越来越感兴趣。现有方法通常采用深度神经网络实现运动补偿和残差/条件编码,并优化端到端压缩框架中的所有模块,展现出了有希望的结果。
设计双向预测压缩模型的动机在于,现有的端到端视频压缩框架都是采用的 low delay P 的 GOP 结构,只是简单的前向单帧参考。而双向预测在传统的混合编码框架中是很常见的。并且,对于端到端的视频压缩框架来说,从一组图像中捕获运动信息时较为困难的,因此这篇论文提出了一种调整现有的以自编码器为主的帧内预测架构的方法,使得其能够采用更复杂的时域预测结构。
各位LVS的小伙伴大家好,非常感谢大家用宝贵的晚上时间,来听我跟大家分享机器视觉编码标准和技术的最新进展。类似的主题,我在今年LVS的4月上海站上讲过一次,根据当场收集到的意见,今天会把一些主要内容再做一次介绍。还因为4月份开了VCM会议,也会把最新的进展跟大家分享。欢迎大家后续多多交流和参与我们的工作。
MPEG组织于2019年7月8日至12日举行了第127届会议,会议参与人数首次突破600大关。以下为会议上集中讨论取得的一些重要结果。
这就是阿里达摩院提出的图像分析新方法:“频域学习”(Learning in the Frequency Domain)。
大家好,我是RealNetworks的况超,本次演讲的主题是视频编解码优化以及与AI的实践结合,虽然我不是AI技术的专家,但在做视频编解码的后期也会用到一些AI的技术,所以也会与大家一起分享这部分的内容。
选自arXiv 机器之心编译 编辑:陈萍 来自谷歌的研究者提出了一种基于生成对抗网络 (GAN) 的神经视频压缩方法,该方法优于以前的神经视频压缩方法,并且在用户研究中与 HEVC 性能相当。 通常,视频压缩的目标是通过利用时间和空间冗余来降低存储视频所需的比特率,同时保留视觉内容,目前广泛使用的方法是非神经标准编解码器(例如 H.264/AVC 、H.265/HEVC)。一些研究表明,神经网络在学习视频压缩方面取得了更好的进展,最新的方法在峰值信噪比(PSNR)方面可以与 HEVC 相媲美,或者在 MS
视觉数据编码顶级国际论坛之一的 PCS 2022 论文入选结果公布! 本次,腾讯多媒体实验室共有5篇论文入选,内容含视频压缩、视频数据集、神经网络压缩图像/视频压缩、高维媒体压缩等多个领域。 以下为入选论文简介: 用于屏幕内容编码的开放视频数据集 An Open Video Dataset for Screen Content Coding Y. Wang, X. Zhao, X. Xu, S. Liu, Z. Lei, M. Afonso, A. Norkin, T. Daede 2022 IEE
VMAF是目前比较好用的质量评价模型。但是在图像/视频压缩,视频增强等领域,可能需要一定的质量评价模块作为损失函数指导网络的训练。VMAF作为不可微的质量评价模型,无法直接作为损失函数,在这样的前提下,Darren等人提出使用神经网络去模拟VMAF的分数,使得该质量评价模块可以直接应用于其他网络的训练过程当中。
《M-LVC: Multiple Frames Prediction for Learned Video Compression 》
有损压缩通过变换和量化技术证明了其在视频压缩中的效率的同时,也表明其会带来量化错误问题。为了补偿这一误差,许多研究者开发了滤波技术,比如去块滤波、样本自适应偏移以及基于维纳的滤波。更进一步的,最近的编码标准将滤波技术应用于环内也取得了图像质量实质上的提高。目前,大部分的滤波技术集中在环路内,作为预处理的滤波还没有被广泛用于有损视频压缩,尤其是最近的视频编码标准 HEVC 和 VVC 中。少部分研究者根据视频压缩标准,基于传统的信号处理技术来进行预处理以提高视频质量,这样做复杂度低但是效率有限。
在过去的十年中,已经出现了数千篇主张 AI 和 ML 有益处的文章。其中一些是现实的,而另一些则夸大了 ML 技术在大量应用中可能带来的好处。那么真正的好处在哪里,市场营销部门在哪里越过界线,变成了无稽之谈?在诸如实时(视频)处理或编码等严格条件下的应用呢?考虑到计算开销、延迟和成本限制后,能保留了多少净收益?
原作 Michele Covell Root 编译自 谷歌博客 量子位 出品 | 公众号 QbitAI 新的一年来了,想给自己找个难度大的挑战?有哪些问题是有重大意义,同时ML介入后会有很大的改善空间
萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 用AI搞视频编解码器,现在路子有点“野”。 插帧、过拟合、语义感知、GAN……你想过这些“脑洞”或AI算法,也能被用到编解码器上面吗? 例如,原本的算法每帧压缩到16.4KB后,树林开始变得无比模糊: 但在用上GAN后,不仅画面更清晰,每帧图像还更小了,只需要14.5KB就能搞定! 又例如,用插帧的思路结合神经编解码器,能让最新压缩算法效果更好…… 这一系列算法的思路,背后究竟是什么原理,用AI搞编解码器,潜力究竟有多大? 我们采访了高通工程技
在 LiveVideoStackCon 2023 大会上,上海交通大学的宋利老师发表了一场关于多模态媒体大模型的全景与展望的精彩演讲。他详细探讨了这一系列技术将会如何改变我们的多媒体链条,包括生成、编码和交互方面的进展、前景和挑战。
在信息时代,网络带宽作为一种新的资源已经开始与传统的化石能源资源相媲美。在我们的视听世界中,视频现在占据网络流量的 80%,根据思科公司的预测,到明年将达到 82%。视频压缩显然是最基本的工具,它不为公众所知,但实际上,它是我们信息时代的重要推动者之一。随着视频在我们日常生活中的使用越来越多,它的作用在可预见的未来只会呈指数级增长。所以我们今天谈论的技术不仅仅是社会角落里的一些深奥的东西,我们不仅现在在使用它们,而且人们在过去一年半的时间里一直在这种 COVID 大流行下使用它们处理日常事务,或与亲人交谈。
明敏 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 不知道你们有没有这样一种感觉,芯片性能要遇上瓶颈了。 光就芯片制程来看,从7nm卷到5nm再卷到3nm,已经越来越逼近摩尔极限。 于是,不少厂商开始试着用AI给芯片性能提供灵感,从神经拟态到用AI设计芯片,各种技术路线都有人在尝试。 这种情况下,哪些新AI技术最可能被应用到下一代芯片当中? 对此,我们采访了一下高通工程技术副总裁侯纪磊。 侯纪磊博士毕业于加州大学圣迭戈分校,在高通已经工作了19年,目前是高通公司AI研究项目负责人,负责高通AI研究(
机器之心报道 作者:杜伟 与传统编解码相比,AI 赋能编解码能带来哪些方面的增益?高通又在这方面做了哪些技术创新和应用?近日,机器之心在与高通工程技术副总裁、人工智能研究方向负责人侯纪磊博士的访谈中,得到了这些问题的答案。 随着通信和互联网技术的进步,特别是智能手机的普及以及 4G、5G 移动通信技术的成熟与发展,语音视频聊天、视频游戏等多样化的休闲娱乐方式层出不穷,普通用户对语音与视频的消费需求也在不断增长。 2020 年《思科可视化网络指数:预测和趋势(2017-2022 年)》报告和 WhatsAp
手动着色黑白视频是需要大量劳动力且繁琐的过程。 但是现在,由NVIDIA研究人员开发的一种新的基于深度学习的算法有望使这个过程变得更加容易,新的框架允许视觉艺术家简单地着色场景中的一个帧,并且AI可以实时地将场景的其他部分着色。
📷 面向用户体验的感知视频编码即通过机器学习检测用户感兴趣的视觉感知区域,并重新分配以更多的码率与复杂度。本文来自北京航空航天大学副教授、博士生导师 徐迈在LiveVideoStack 线上交流分享,
在过去几十年中,视频压缩领域取得了许多进展,包括传统的视频编解码器和基于深度学习的视频编解码器。然而,很少有研究专注于使用前处理技术来提高码率-失真性能。在本文中,我们提出了一种码率-感知优化的前处理(RPP)方法。我们首先引入了一种自适应离散余弦变换损失函数,它可以节省比特率并保持必要的高频分量。此外,我们还将低级视觉领域的几种最新技术结合到我们的方法中,例如高阶退化模型、高效轻量级网络设计和图像质量评估模型。通过共同使用这些强大的技术,我们的RPP方法可以作用于AVC、HEVC和VVC等不同视频编码器,与这些传统编码器相比,平均节省16.27%的码率。在部署阶段,我们的RPP方法非常简单高效,不需要对视频编码、流媒体和解码的设置进行任何更改。每个输入帧在进入视频编码器之前只需经过一次RPP处理。此外,在我们的主观视觉质量测试中,87%的用户认为使用RPP的视频比仅使用编解码器进行压缩的视频更好或相等,而这些使用RPP的视频平均节省了约12%的比特率。我们的RPP框架已经集成到我们的视频转码服务的生产环境中,每天为数百万用户提供服务。我们的代码和模型将在论文被接受后发布。
人脸检测和识别是计算机视觉中的一个重要应用领域,它可以识别人脸的位置、姿态、表情等信息,并对这些信息进行分类和识别。在实际应用中,人脸检测和识别被广泛应用于安防监控、人机交互、图像搜索、广告投放等领域。
《龙珠》、《神奇宝贝》、《新世纪福音战士》等上个世纪开播的动漫是很多人童年回忆的一部分,它们曾给我们带来了充满了热血、友情与梦想的视觉之旅。某些时候,我们会突然有重温这些童年回忆的冲动,但我们却可能会略带遗憾地发现这些童年回忆的分辨率非常低,根本无法在客厅的 4K 大屏电视上创造出良好的视觉体验,以至于可能阻碍我们与在高分辨率数字世界中成长的孩子分享这些童年回忆。
2017年9月17日至20日,IEEE国际图像处理会议(ICIP 2017)在北京国家会议中心举办,国内外许多学术界以及工业界的专家学者们都与会进行交流与讨论。9月20日早,旨在使用图像恢复方法来提升编码效率的Grand Challenge环节中,我们作为唯一的参赛者进行了技术分享。主办方希望可以征集一种类似于HEVC标准中后处理的方法来提升编码效率,与传统不同的是,可以使用伴随码流传输的辅助信息在解码器上帮助图像复原,其中辅助信息可以在编码端进行提取与压缩。为了将图像复原技术更好结合到视频压缩之中,这里也
最近,OpenAI 的文生视频模型 Sora 爆火。除了能够输出高质量的视频之外,OpenAI 更是将 Sora 定义为一个「世界模拟器」(world simulators)。
提起MPEG,大多数人更关心的是MPEG的音视频标准。不太为人所知但可能非常重要的是,MPEG已经开发了一些用于压缩各种其他数据类型的标准,例如压缩点云数据等,如下图所示。
INR(Implicit Neural Representation,隐式神经表示) 通常学习坐标到值的映射以支持原始信号的隐式重建。当使用 INR 编码视频时,可以通过对各个输入视频执行模型压缩来实现视频压缩。与其他方法相比,INR 方法表现出相对较高的解码速度,但未能提供与视频压缩领域的最新技术相当的速率质量性能。这主要是由于所采用的网络架构的简单性,限制了它们的表示能力。现有的一些 INR 方法使用的卷积层或子像素卷积层在参数效率上存在问题,而基于傅立叶的位置编码在训练时间上较长且只能达到次优的重建质量。
研究人员表明,通过在每个视频帧中插入被称为对抗性样本(adversarial examples )的输入,探测器就可以被击败。对抗性的例子是稍微被操纵的输入,会导致人工智能系统,如机器学习模型犯错误。此外,研究小组还发现,在视频被压缩后,这种攻击仍然有效。
1. 传统图像压缩 方法 主页 说明 JPEG XL https://jpeg.org/jpegxl/ JPEG 小组提出,目前最好的图像压缩方法 CMIX http://www.byronknoll.com/cmix.html 无损数据压缩方法,以高 CPU/内存使用率换高压缩比 Lepton https://github.com/dropbox/lepton 对 JPEG 图片进行无损压缩,节省近 22%22\%22% 的大小 FLIF https://flif.info/ 无损图像压缩方法,目前已停止
归根结底,每一种视频压缩方法都要权衡利弊(trade-off):如果允许更大的文件大小,就可以拥有更好的图像质量;但如果想让文件非常小,那就必须要容忍错误出现的概率。但现在(以及不久的将来),人们希望基于神经网络的方法能够在视频文件大小和质量之间做出更好的权衡与交换(a better trade-off)。
互联网时代,社交媒体分享、自动驾驶、增强显示、卫星通信、高清电视或视频监控等应用场景对图片和视频有很强的需求,压缩算法也因此备受关注,但是不同的应用场景对压缩算法的性能要求也不一样,有的需求是保持高清的画质是第一位,有的需求是体积小是第一位,可以损害一些画质。
本次演讲来自PCS2021,演讲者是来自Netflix视频编码算法团队的的Kyle Swanson和Mariana Afonso,主要将谈论Netflix是如何处理视频压缩以及存在的一些挑战。
📷 『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。 策划 / LiveVideoStack 架构 Hulu 视频QoS优化策略 QoS直接关系到用户体验,如何提升QoS就成为视频平台技术实力的体现。本文来自Hulu全球高级研发经理、视频编解码与传输领域资深专家傅徳良在LiveVideoStackCon 2017上的分享。尽管Hulu提供服务的网络环境与国内大相径庭,但其相关QoS保障策略依然值得借鉴。 微博短视频服务优化实
传统的混合视频编码框架和现有的基于深度学习的视频压缩(DLVC)方法都遵循相同的视频压缩方法,通过设计各种模块来减少空间和时间冗余。它们使用同一帧或相邻帧中的相邻像素作为参考来导出帧内或帧间预测值。由于视频序列是以高帧率(例如30fps或60fps)捕获的,因此同一场景可能出现在时域中高度相关的数百个帧中。然而,现有的压缩策略并不能很好地去除块级或帧级预测中的场景冗余。
视频编码算法有很多,如广泛应用的H.264、H.265,但是它们都是为了更好地保证重建视频有着更高的质量,并且编码的质量指标(PSNR、SSIM)都是为了保证人的视觉体验设计的,没有专门为下游AI相关任务设计编码算法。
导语 | 2019年9月7日,腾讯技术开放日·5G多媒体专场在腾讯滨海大厦完美落幕。来自腾讯多媒体实验室的专家们给大家带来了关于5G技术和标准的精彩分享,揭开了许多关于5G的谜团。本文重点给大家讲解5G时代下多媒体标准、多媒体压缩前沿技术的标准化,以及面向未来的多媒体系统架构。
论文 1:DOVE: Learning Deformable 3D Objects by Watching Videos
在腾讯,我们有多个视频业务线,点播视频有腾讯视频,企鹅影视;短视频有微视,K歌;直播类有Now直播,企鹅电竞;实时传输类有QQ和微信的音视频通话,无线投屏和腾讯会议等。
本文介绍了如何将机器学习引入到编码器优化中,通过实验证明,该方法能够有效提升编码速度,降低压缩性能损失。
厨师帽识别 后厨厨师帽佩戴情况实时监控对于各种厨房工作自然环境下的安全健康难题,全自动识别餐厅厨房工作人员的厨师帽是不是佩戴,是否正确佩戴,是不是有耗子/猫/狗等小动物侵入,外来人员侵入后厨等。适用遍布在全国各地的餐厅厨房集中化实时监控管理方法,能够处理厨房卫生监管盲区大、监管艰难、卫生监督所欠缺等困扰,使传统式餐饮服务流程迈向智能化安全管理。该操作系统选用人工智能机开展视觉效果剖析“深度神经网络”技术性、集成化智能视频行为分析、视频监控画面总体目标检测剖析、面部识别、视频压缩技术等技术性,是一套新一代的技术性AI“明厨亮灶”环境卫生生产安全管理专用工具。
谷歌通过线上社区的形式创造了各种新的工具和工业标准,它们所衍生出的服务和产品旨在为使用者提供更好的线上体验。 谷歌近日开源了用于数字图像和网络图形的JPEG编码器 Guetzli( [guɛtsli], 在瑞士德语中被翻译为饼干)。与现有的方法相比,它能将高质量图片的大小缩小35%。这就使网站管理员可以使用更少的数据更快地加载网页,此外,它能兼容现有的浏览器、图像处理应用和JPEG标准。 从实现的角度来说Guetzli 与Zopfli算法类似,并不需要引入新的格式就能生成更小的PNG和gzip文件。与前段时
点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 编者按:本文来自Zoe Liu对OTTVerse的投稿,详解2023年及未来的全球视频编码领域的趋势。感谢Zoe Liu对中文版的审校。 原文 https://ottverse.com/video-software-encoding-2023-state-of-the-art-trends/ 文 / Zoe Liu 译 / 核子可乐 在这篇评论文章中,微帧科技(Visionular)公司联合创
谷歌按:“我们通过线上社区的形式,创造了各种新的工具和工业标准。它们所衍生出的服务和产品,旨在为开发者提供更好的线上体验。” 谷歌近日开源了用于数字图像和网络图形的JPEG编码器 Guetzli( [guɛtsli], 在瑞士德语中被翻译为饼干)。与现有方法相比,它能将高质量图片的大小缩小35%。这就使网站管理员可以使用更少的数据更快地加载网页,此外,它能兼容现有的浏览器、图像处理应用和JPEG标准。 从实现的角度来说Guetzli 与Zopfli算法类似,并不需要引入新的格式就能生成更小的PNG和gzip
2019 IEEE International Symposium onCircuits and Systems (ISCAS 2019)会议将于5月26日至29日在日本北海道举行,其论文已于5月1日在IEEE数据库中开放[1]。本文将关注与视频编码相关的论文进行简要介绍,主要分为“基于学习的视频编码”和“视频编码与优化”两大类。
大概在去年《WebRTC,P2P技术,IPv6》一文中探讨了互联网p2p技术的基本原理,从资源守恒和分形结构的角度揭示了NAT技术的2个本质:
领取专属 10元无门槛券
手把手带您无忧上云