首页
学习
活动
专区
工具
TVP
发布

媒矿工厂

专栏作者
881
文章
1034762
阅读量
235
订阅数
IBC 2023 | 最新人工智能/深度学习模型趋势在超分辨率视频增强中的技术概述
超分辨率(SR)方法指的是从低分辨率输入生成高分辨率图像或视频的过程。这些技术几十年来一直是研究的重要课题,早期的 SR 方法依赖于空间插值技术。虽然这些方法简单且有效,但上转换图像的质量受到其无法生成高频细节的能力的限制。随着时间的推移,引入了更复杂的方法,包括统计、基于预测、基于块或基于边缘的方法。然而,最显著的进步是由新兴的深度学习技术,特别是卷积神经网络(CNNs)带来的。尽管卷积神经网络(CNNs)自 20 世纪 80 年代以来就存在,但直到 20 世纪 90 年代中期,由于缺乏适合训练和运行大型网络的硬件,它们才开始在研究社区中获得广泛关注。
用户1324186
2024-03-20
1980
视觉无损的深度学习前处理算法
在过去几十年中,视频压缩领域取得了许多进展,包括传统的视频编解码器和基于深度学习的视频编解码器。然而,很少有研究专注于使用前处理技术来提高码率-失真性能。在本文中,我们提出了一种码率-感知优化的前处理(RPP)方法。我们首先引入了一种自适应离散余弦变换损失函数,它可以节省比特率并保持必要的高频分量。此外,我们还将低级视觉领域的几种最新技术结合到我们的方法中,例如高阶退化模型、高效轻量级网络设计和图像质量评估模型。通过共同使用这些强大的技术,我们的RPP方法可以作用于AVC、HEVC和VVC等不同视频编码器,与这些传统编码器相比,平均节省16.27%的码率。在部署阶段,我们的RPP方法非常简单高效,不需要对视频编码、流媒体和解码的设置进行任何更改。每个输入帧在进入视频编码器之前只需经过一次RPP处理。此外,在我们的主观视觉质量测试中,87%的用户认为使用RPP的视频比仅使用编解码器进行压缩的视频更好或相等,而这些使用RPP的视频平均节省了约12%的比特率。我们的RPP框架已经集成到我们的视频转码服务的生产环境中,每天为数百万用户提供服务。我们的代码和模型将在论文被接受后发布。
用户1324186
2023-09-09
4100
CVPR 2020 | 一种频域深度学习
深度神经网络在计算机视觉任务中取得了显著的成功。对于输入图片,现有的神经网络主要在空间域中操作,具有固定的输入尺寸。然而在实际应用中,图像通常很大,必须被降采样到神经网络的预定输入尺寸。尽管降采样操作可以减少计算量和所需的通信带宽,但它会无意识地移除冗余和非冗余信息,导致准确性下降。受数字信号处理理论的启发,我们从频率的角度分析了频谱偏差,并提出了一种可学习的频率选择方法,可以在不损失准确性的情况下移除次相关的频率分量。在下游任务中,我们的模型采用与经典神经网络(如ResNet-50、MobileNetV2和Mask R-CNN)相同的结构,但接受频域信息作为输入。实验结果表明,与传统的空间降采样方法相比,基于静态通道选择的频域学习方法可以实现更高的准确性,同时能够减少输入数据的大小。具体而言,在相同的输入尺寸下,所提出的方法在ResNet-50和MobileNetV2上分别实现了1.60%和0.63%的top-1准确率提升。当输入尺寸减半时,所提出的方法仍然将ResNet-50的top-1准确率提高了1.42%。此外,我们观察到在COCO数据集上的分割任务中,Mask R-CNN的平均精度提高了0.8%。
用户1324186
2023-09-09
4190
CVPR 2022 | StyleSDF: 高分辨率三维一致图像和几何生成
StyleGAN 架构展示了高质量 RGB 图像生成,但是它们仅针对生成单个 RGB 视图,而不是 3D 内容。本文提出的 StyleSDF 是一种生成 3D 一致的高分辨率(1024 × 1024) RGB 图像和几何图形的方法。相关的 3D 生成模型通过基于坐标的多层感知器(MLP)实现形状和外观的合成,然而这些工作往往需要 3D 或多视图数据进行监督,这些数据很难收集,并且由于它们依赖于昂贵的体积场采样,现有算法大多仅限于低分辨率的渲染输出。
用户1324186
2023-02-03
1.1K0
KonX:跨分辨率的无参考图像质量评价
尺度不变性是许多计算机视觉子领域中的问题。例如,在分类任务中,对象标签应该在不同尺度上保持不变,但不同尺度的图像会给模型预测带来一定的偏差;对于ground-truth随着图像尺度变化而变化的任务,如图像质量评价任务来说,尺度不变性问题将会更加的重要。
用户1324186
2023-01-31
8150
视频压缩足够好了吗?
来源:Video Insiders 主讲人:Ramzi Khsib 内容整理:杨晓璇 AWS Elemental 的首席软件工程师 Ramzi Khsib 分享了他对视频编解码的现状和未来前景的看法,讨论了 AVC、HEVC、VVC 和 AV1 的市场采用情况,内容自适应编码,硬件与软件的实现,以及如何利用机器学习工具提高现有编解码器的压缩效率。 目录 前言 传统编解码的现状和未来 码率控制——QVBR 机器学习在视频压缩中的应用 总结 前言 Video Insider 是一个有关视频的专业节目,两位主持人
用户1324186
2022-11-07
7140
Loki: 通过融合基于规则的模型提高基于学习的实时视频自适应的长尾性能
最大化实时视频的体验质量(QoE)是一个长期存在的挑战。传统的视频传输协议以少量确定性规则为代表,难以适应异构、高度动态的现代互联网。新兴的基于学习的算法已经显示出应对这一挑战的潜力。然而,我们的测量研究揭示了一个令人担忧的长尾性能问题: 由于内置的探索机制,这些算法往往会受到偶尔发生的灾难性事件的瓶颈。在这项工作中,我们提出了 Loki,它通过将学习模型与基于规则的算法相结合,提高了学习模型的鲁棒性。为了能够在特征层次上进行集成,我们首先将基于规则的算法逆向工程为一个等效的“黑盒”神经网络。然后,我们设计一个双注意特征融合机制,将其与一个强化学习模型融合。我们通过在线学习在一个商业实时视频系统中训练 Loki,并对它进行了超过1.01亿次的视频会话评估,与最先进的基于规则和基于学习的解决方案进行了比较。结果表明,Loki 不仅提高了系统的平均吞吐量,而且显著提高了系统的尾部性能(95% 时,系统的卡顿率降低了26.30% ~ 44.24% ,视频吞吐量提高了1.76% ~ 2.17%)。
用户1324186
2022-11-07
1.6K0
VoxGRAF:基于稀疏体素的快速三维感知图像合成
对场景进行高分辨率的高保真渲染是计算机视觉和图形学领域的一个长期目标。实现这一目标的主要范式是精心设计一个场景的三维模型,再加上相应的光照模型,使用逼真的相机模型渲染输出高保真图像。生成对抗网络(GAN)已经成为一类强大的可以实现高保真高分辨率图像合成的生成模型。这种二维模型的好处之一是他们可以使用便于获得的大量图像进行训练。然而,将 GAN 扩展到三维则相对困难,因为用于监督的三维真实模型难以获得。近期,3D-aware GAN 解决了人工制作的三维模型以及缺乏三维约束的用于图像合成的 2D GAN 之间的不匹配问题。3D-aware GAN 由三维生成器、可微分渲染以及对抗训练组成,从而对新视角图像合成过程中的相机位姿以及潜在的场景的对象形状、外观等其他场景性质进行显式控制。GRAF 采用了 NeRF 中基于坐标的场景表示方法,提出了一种使用基于坐标的 MLP 和体渲染的 3D-aware GAN,将基于 3D 感知的图像合成推进到更高的图像分辨率,同时基于物理真实且无参数的渲染,保持了场景的三维一致性。然而在三维场景进行密集采样会产生巨大的消耗,同时三维的内容经常与观察视角纠缠在一起,而进行下游应用时,场景的三维表征往往需要集成到物理引擎中,因此难以直接获得场景三维内容的高分辨率表征。许多近期的方法通过将 MLP 移出场景表征从而加速了新视角合成的训练速度,通过优化稀疏体素证明了 NeRF能够获得高保真图像的原因不是由于其使用了 MLP ,而是由于体渲染和基于梯度的优化模式。
用户1324186
2022-11-07
1.1K0
低复杂度多模型 CNN 环路滤波 for AVS3
卷积神经网络(CNN)在许多图像/视频处理任务中取得了不错的性能表现。而AVS3作为国内自研的新一代视频编码标准,我们将 CNN 应用于 AVS3 视频编码标准,提出了一个低复杂度多模型 CNN 环路过滤方案。首先通过多个轻量级网络模型对比,选择简化的 ResNet 作为整体方案的基础单模型。然后在这基础上,提出了多模型迭代训练框架,实现多模型滤波器方案。并针对不同的比特率范围对网络深度与多模型数量进行了优化,以实现网络模型性能和计算复杂度之间的权衡。实验结果表明:所提出的方法在 All intra 配置条件下,在 Y 分量上实现平均 6.06% 的 BD-rate 节省。与其他编码性能相当的 CNN 环路滤波器相比,我们所提出的多模型环路滤波方案可以显著降低解码器的复杂性,实验结果表明,解码时间平均可以节省 26.6%。
用户1324186
2022-05-25
1.1K0
W3C:开发专业媒体制作应用(4)
在以前,把团队召集在同一个房间同一块屏幕下协同工作毫不费力,但是随着远程工作的大流行,现有协同工作软件,例如网络会议,内容分享工具,不足以满足高自由度媒体内容创作团队的需求,例如艺术创作,动画创作,视频创作等。我们在 Bluescape 创造了一种新颖的方法,使得几乎任何网站或启用网络的工具都可以获得额外的功能,以便在查看、评论和编辑媒体内容时获得实时共同体验。当用户或团队开启共同会话时,被使用的的网站会加载到云中,同时将相同的副本和所有新增的更改广播到所有连接的客户端,为它们提供相同的质量、相同的延迟和大致相同体验,就像他们在本地设备上或在同一屏幕后面浏览内容一样。
用户1324186
2022-05-24
1.4K0
使用贝叶斯优化改进流媒体服务体验
在日常体验流媒体服务时,我们总是希望视频质量高,且无卡顿与缓冲。但是快速且稳定的网络并不是时时刻刻都有的——有时手机远离信号塔并失去信号,有时网络产生拥塞,有时由于睡眠模式导致天线需要重新连接,还有的时候,后台的任务可能会与流媒体竞争资源,这些因素都会导致流媒体服务质量的下降。
用户1324186
2022-04-12
4890
基于显著性的感知视频编码
显著性是某些事物突出的特性。对于图片来说,当图片的内容不是很复杂时,显著性区域可以比较容易的划分出来。一般来说,在图片中存在运动物体、前景物体、以及不相关的物体时,会导致显著性检测的结果更容易出现问题。
用户1324186
2022-02-18
1.1K0
用神经网络重新审视 VVC 的 SAO 环路滤器
Philippe 首先介绍道,在最近的视频编解码器中,环路后处理滤波已经成为一种至关重要的组件。它可以减少压缩伪影,并减少与原始样本的失真。AVC 首先引入了去块滤波器,之后 HEVC 额外引入了 Sample Adaptive Offset 后处理滤波器,以减少振铃效应和颜色偏差。最近发布的 VVC 标准设计了一种自适应的环路滤波器,使用基于维那滤波器的自适应滤波系数,来最小化重建像素和原始像素之间的 MSE。
用户1324186
2022-02-18
7390
从 RTC 走向元宇宙
元宇宙无疑是是当下产业和技术的热词,成为近期全球科技领域炙手可热的新概念。上海交通大学 Medialab 的宋利老师最近就这一热点话题,做过多次访谈或技术报告,包括上海人民广播电台长三角之声《思创空间》、上海科技报《科技会客厅》、数字电视与无线多媒体通信国际论坛(IFTC2021) 、视频体验联盟(VEA)、以及百视通、华为等企业。最近受邀在 RTSConf 2021(12 月 26 日,线上)做了“从 RTC 到元宇宙”的分享。
用户1324186
2021-12-31
1.2K0
高保真人脸交换和重演(FG2021)
原标题:Dense 3D Coordinate Code Prior Guidance for High-Fidelity Face Swapping and Face Reenactment
用户1324186
2021-12-27
1.2K0
基于 CNN 模型选择的 VVC 质量增强
Fatemeh 首先介绍道,即便是 VVC, AV1/AV2 或 EVC 等下一代编码器使用了更为先进和复杂的编码工具,被编码的视频也无可避免地会产生模糊、块效应、振铃效应等明显可见的压缩伪影,尤其是在低码率编码的情况下。在编码器普遍采用的基于块的混合编码框架中,在块的边界部分产生的不连续性导致了块效应失真。另一种失真来源是量化损失,在低码率下使用粗糙量化和较大的量化步长时,残差信号的变换系数就产生了量化损失,这会引入振铃效应、平滑边缘或者模糊的失真。
用户1324186
2021-12-22
1.1K0
Compira Labs 重振视频流和云游戏的服务质量
对于许多人来说,糟糕的体验质量 (QoE) 在视频流方面是一个十分常见的问题和挑战,包括视频延迟高、质量低下、反复重新缓冲等,这些在视频电话会议和云游戏中也十分普遍。
用户1324186
2021-12-02
6510
在基于学习的图像编解码器压缩域实现超分
近年来,基于学习的图像编码已经显示出很好的效果。在我们的工作中,我们将只考虑单一图像的超分。与视频超分不同,视频可以利用后续帧之间的关联性来获得额外的性能和质量。
用户1324186
2021-12-02
1.6K1
基于 CNN 的视频压缩预处理研究
有损压缩通过变换和量化技术证明了其在视频压缩中的效率的同时,也表明其会带来量化错误问题。为了补偿这一误差,许多研究者开发了滤波技术,比如去块滤波、样本自适应偏移以及基于维纳的滤波。更进一步的,最近的编码标准将滤波技术应用于环内也取得了图像质量实质上的提高。目前,大部分的滤波技术集中在环路内,作为预处理的滤波还没有被广泛用于有损视频压缩,尤其是最近的视频编码标准 HEVC 和 VVC 中。少部分研究者根据视频压缩标准,基于传统的信号处理技术来进行预处理以提高视频质量,这样做复杂度低但是效率有限。
用户1324186
2021-11-23
1.7K0
回归VMAF分数的视频质量评价模块
VMAF是目前比较好用的质量评价模型。但是在图像/视频压缩,视频增强等领域,可能需要一定的质量评价模块作为损失函数指导网络的训练。VMAF作为不可微的质量评价模型,无法直接作为损失函数,在这样的前提下,Darren等人提出使用神经网络去模拟VMAF的分数,使得该质量评价模块可以直接应用于其他网络的训练过程当中。
用户1324186
2021-10-22
1.4K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档