首页
学习
活动
专区
工具
TVP
发布

媒矿工厂

专栏作者
881
文章
1034537
阅读量
235
订阅数
ICLR 2024 | 针对深度视频压缩的神经网络码率控制
近年来,视频内容几乎占据了所有互联网流量的80%。因此,为视频存储和传输设计高效的视频压缩方法至关重要。传统的视频编码标准,如 AVC, HEVC 和 VVC 等,都是在过去几十年中基于块分割、线性离散余弦变换(DCT)等手工设计模块搭建的。最近,研究者对基于深度学习的视频压缩方法越来越感兴趣。现有方法通常采用深度神经网络实现运动补偿和残差/条件编码,并优化端到端压缩框架中的所有模块,展现出了有希望的结果。
用户1324186
2024-02-21
3330
NeurIPS 2023 | 神经网络图像压缩:泛化、鲁棒性和谱偏
目前,神经图像压缩(NIC)在分布内(in-distribution, IND)数据的 RD 性能和运行开销表现出了卓越的性能。然而,研究神经图像压缩方法在分布外(out-of-distribution, OOD)数据的鲁棒性和泛化性能方面的工作有限。本文的工作就是围绕以下关键问题展开的:
用户1324186
2024-01-04
2200
ISCC 2023 | 在RTC中采用基于学习的递归神经网络进行拥塞控制
近年来,实时通信(RTC)在许多场景中得到了广泛的应用,而拥塞控制(CC)是改善此类应用体验的重要方法之一。准确的带宽预测是CC方案的关键。然而,设计一个有效的拥塞控制方案与准确的带宽预测是具有挑战性的,主要是因为它本质上是一个部分可观察的马尔可夫过程(POMDP)问题,很难使用传统机器学习的方法来解决。本文提出了一种新的混合 CC 机制 LRCC,它结合了基于注意力的长短期记忆(LSTM)和强化学习(RL),通过将递归神经网络提供的带宽记忆信息加入到 RL 决策过程中,实现了更精确的带宽预测和拥塞控制。
用户1324186
2023-12-14
4430
ICCV 2023 | COMPASS:任意尺度空间可伸缩性的深度图像压缩
在多媒体系统中,不同的终端设备需要不同分辨率大小和不同质量的图像,但大多数现有的基于神经网络的图像压缩方法必须将同一图像的不同版本单独压缩为多个比特流,从而导致低编码效率。为了解决这个问题,有一些关于可缩放图像压缩的研究,其中图像的各种版本以分层方式的编码到单个比特流中。每个层负责对图像的一个对应版本进行编解码,并且通过不同的预测方法来减少相邻层之间的冗余。
用户1324186
2023-11-07
4110
ICML Workshop | NNCodec: 神经网络编码 ISO/IEC 标准的开源软件实现
人工智能方法在信号处理许多领域的普遍应用导致对底层神经网络(NN)的高效分配、训练、推理和存储的需求不断增加。为此,需要寻求有效的压缩方法,提供最小的编码率的同时,神经网络性能指标(例如分类精度)不会降低。
用户1324186
2023-09-19
3390
用于机器视觉任务的图像压缩前处理
最近,越来越多的图像被压缩并发送到后端设备进行机器视觉分析任务(例如目标检测),而不仅仅是供人类观看。然而,大多数传统的或可学习的图像编解码器都是最小化人类视觉系统的失真,而没有考虑到机器视觉系统的需求。在这项工作中,我们提出了一种用于机器视觉任务的图像压缩前处理方法。我们的框架不依赖于可学习的图像编解码器,而是可用于传统的非可微分编解码器,这意味着它与编码标准兼容,并且可以轻松部署在实际应用中。具体而言,我们在编码器之前增加一个神经网络前处理模块,用于保留对下游任务有用的语义信息并抑制无关信息以节省比特率。此外,我们的神经网络前处理模块是量化自适应的,可以在不同的压缩比下使用。更重要的是,为了联合优化前处理模块和下游机器视觉任务,我们在反向传播阶段引入了传统非可微分编解码器的代理网络。我们在几个具有不同骨干网络的代表性下游任务上进行了广泛的实验。实验结果表明,我们的方法通过节省约20%的比特率,在编码比特率和下游机器视觉任务性能之间取得了更好的权衡。
用户1324186
2023-09-09
3100
CVPR 2020 | 一种频域深度学习
深度神经网络在计算机视觉任务中取得了显著的成功。对于输入图片,现有的神经网络主要在空间域中操作,具有固定的输入尺寸。然而在实际应用中,图像通常很大,必须被降采样到神经网络的预定输入尺寸。尽管降采样操作可以减少计算量和所需的通信带宽,但它会无意识地移除冗余和非冗余信息,导致准确性下降。受数字信号处理理论的启发,我们从频率的角度分析了频谱偏差,并提出了一种可学习的频率选择方法,可以在不损失准确性的情况下移除次相关的频率分量。在下游任务中,我们的模型采用与经典神经网络(如ResNet-50、MobileNetV2和Mask R-CNN)相同的结构,但接受频域信息作为输入。实验结果表明,与传统的空间降采样方法相比,基于静态通道选择的频域学习方法可以实现更高的准确性,同时能够减少输入数据的大小。具体而言,在相同的输入尺寸下,所提出的方法在ResNet-50和MobileNetV2上分别实现了1.60%和0.63%的top-1准确率提升。当输入尺寸减半时,所提出的方法仍然将ResNet-50的top-1准确率提高了1.42%。此外,我们观察到在COCO数据集上的分割任务中,Mask R-CNN的平均精度提高了0.8%。
用户1324186
2023-09-09
4190
ECCV 2022 | VisDB:基于学习的密集人体鲁棒估计
从单目图像估计 3D 人体姿势和形状是动作重定向、虚拟化身和人类动作识别等各种应用的关键任务。这是一个具有根本挑战性的问题,因为深度模糊和人类外表的复杂性会随着关节、衣服、照明、视角和遮挡而变化。为了通过紧凑的参数表示复杂的 3D 人体,诸如 SMPL 之类的基于模型的方法已在社区中得到广泛使用。然而,SMPL 参数以整体方式表示人体,导致通过直接它们的参数无法灵活适应真实世界图像。更重要的是,当人体在图像中不完全可见时,基于回归的方法往往会失败,例如,被遮挡或在框架外。在这项工作中,作者的目标是学习与输入图像并且对部分身体情况具有鲁棒性的人体估计。
用户1324186
2023-02-03
1.5K0
CVPR 2022 | StyleSDF: 高分辨率三维一致图像和几何生成
StyleGAN 架构展示了高质量 RGB 图像生成,但是它们仅针对生成单个 RGB 视图,而不是 3D 内容。本文提出的 StyleSDF 是一种生成 3D 一致的高分辨率(1024 × 1024) RGB 图像和几何图形的方法。相关的 3D 生成模型通过基于坐标的多层感知器(MLP)实现形状和外观的合成,然而这些工作往往需要 3D 或多视图数据进行监督,这些数据很难收集,并且由于它们依赖于昂贵的体积场采样,现有算法大多仅限于低分辨率的渲染输出。
用户1324186
2023-02-03
1.1K0
经典论文 | Nerf: 将场景表示为用于视图合成的神经辐射场
计算机视觉中一个研究方向是在 MLP 的权重中编码对象和场景,使得该 MLP 直接从 3D 空间位置映射到形状的隐式表示。然而,之前的方法无法使用离散的方式(如三角形网格或体素网格)以相同的保真度再现具有复杂几何形状的真实场景,迄今为止也仅限于表示具有低几何复杂性的简单形状,从而导致渲染过度平滑。NeRF提出将一个静态场景表示为5D输入,即:空间中某个位置的3D坐标以及观察方向,通过MLP神经网络得到该位置的颜色以及体密度,使用体绘制技术可以得到输入相机位姿条件下的视角图片,然后和 ground truth 做损失即可完成可微优化,从而渲染出连续的真实场景。
用户1324186
2022-11-07
2.9K0
视频压缩足够好了吗?
来源:Video Insiders 主讲人:Ramzi Khsib 内容整理:杨晓璇 AWS Elemental 的首席软件工程师 Ramzi Khsib 分享了他对视频编解码的现状和未来前景的看法,讨论了 AVC、HEVC、VVC 和 AV1 的市场采用情况,内容自适应编码,硬件与软件的实现,以及如何利用机器学习工具提高现有编解码器的压缩效率。 目录 前言 传统编解码的现状和未来 码率控制——QVBR 机器学习在视频压缩中的应用 总结 前言 Video Insider 是一个有关视频的专业节目,两位主持人
用户1324186
2022-11-07
7140
ECCV 2022|码流信息辅助的压缩视频超分框架
目前网络上的电影、网络广播、自媒体视频等大部分是分辨率较低的压缩视频,而智能手机、平板电脑、电视等终端设备正逐渐配备 2K、4K 甚至 8K 清晰度的屏幕,因此端侧的视频超分辨率(VSR)算法引起越来越广泛的关注。与图像超分辨率(SISR)相比,视频超分辨率(VSR)可以通过沿视频时间维度利用邻近帧的信息来提高超分辨率的效果。视频超分辨率算法大致可以分为两类:基于滑窗的视频超分算法(Sliding-window)和基于循环神经网络的视频超分算法(Recurrent VSR)。基于滑窗的视频超分算法会重复的提取邻近帧的特征,而基于循环神经网络的视频超分辨率算法避免了重复的特征提取,还可以高效的传递长期时间依赖信息,鉴于端侧运算单元和内存有限的情况来说是一个更具潜力的方案。在视频超分中,视频帧之间的对齐对超分辨率性能有着重要的影响。目前的视频超分算法通过光流估计、可形变卷积、注意力和相关性机制等方式来设计复杂的运动估计网络来提升视频超分的性能。而目前商用终端设备很难为视频超分辨率算法提供足够的计算单元和内存来支撑视频帧之间复杂的运动估计以及大量的冗余特征计算。
用户1324186
2022-11-07
1.8K0
VoxGRAF:基于稀疏体素的快速三维感知图像合成
对场景进行高分辨率的高保真渲染是计算机视觉和图形学领域的一个长期目标。实现这一目标的主要范式是精心设计一个场景的三维模型,再加上相应的光照模型,使用逼真的相机模型渲染输出高保真图像。生成对抗网络(GAN)已经成为一类强大的可以实现高保真高分辨率图像合成的生成模型。这种二维模型的好处之一是他们可以使用便于获得的大量图像进行训练。然而,将 GAN 扩展到三维则相对困难,因为用于监督的三维真实模型难以获得。近期,3D-aware GAN 解决了人工制作的三维模型以及缺乏三维约束的用于图像合成的 2D GAN 之间的不匹配问题。3D-aware GAN 由三维生成器、可微分渲染以及对抗训练组成,从而对新视角图像合成过程中的相机位姿以及潜在的场景的对象形状、外观等其他场景性质进行显式控制。GRAF 采用了 NeRF 中基于坐标的场景表示方法,提出了一种使用基于坐标的 MLP 和体渲染的 3D-aware GAN,将基于 3D 感知的图像合成推进到更高的图像分辨率,同时基于物理真实且无参数的渲染,保持了场景的三维一致性。然而在三维场景进行密集采样会产生巨大的消耗,同时三维的内容经常与观察视角纠缠在一起,而进行下游应用时,场景的三维表征往往需要集成到物理引擎中,因此难以直接获得场景三维内容的高分辨率表征。许多近期的方法通过将 MLP 移出场景表征从而加速了新视角合成的训练速度,通过优化稀疏体素证明了 NeRF能够获得高保真图像的原因不是由于其使用了 MLP ,而是由于体渲染和基于梯度的优化模式。
用户1324186
2022-11-07
1.1K0
低复杂度多模型 CNN 环路滤波 for AVS3
卷积神经网络(CNN)在许多图像/视频处理任务中取得了不错的性能表现。而AVS3作为国内自研的新一代视频编码标准,我们将 CNN 应用于 AVS3 视频编码标准,提出了一个低复杂度多模型 CNN 环路过滤方案。首先通过多个轻量级网络模型对比,选择简化的 ResNet 作为整体方案的基础单模型。然后在这基础上,提出了多模型迭代训练框架,实现多模型滤波器方案。并针对不同的比特率范围对网络深度与多模型数量进行了优化,以实现网络模型性能和计算复杂度之间的权衡。实验结果表明:所提出的方法在 All intra 配置条件下,在 Y 分量上实现平均 6.06% 的 BD-rate 节省。与其他编码性能相当的 CNN 环路滤波器相比,我们所提出的多模型环路滤波方案可以显著降低解码器的复杂性,实验结果表明,解码时间平均可以节省 26.6%。
用户1324186
2022-05-25
1.1K0
使用贝叶斯优化改进流媒体服务体验
在日常体验流媒体服务时,我们总是希望视频质量高,且无卡顿与缓冲。但是快速且稳定的网络并不是时时刻刻都有的——有时手机远离信号塔并失去信号,有时网络产生拥塞,有时由于睡眠模式导致天线需要重新连接,还有的时候,后台的任务可能会与流媒体竞争资源,这些因素都会导致流媒体服务质量的下降。
用户1324186
2022-04-12
4890
用 Livepeer 在区块链上进行实时视频转码
P2P 时代(90 年代)遗存下来的 BitTorrent 现在仍占据了 15-20% 的互联网流量。回过头去看看,人们真正创造 BitTorrent 的目的是想在互联网上从点对点的角度分享信息,在某些情况下比集中式系统性能更好。区块链是一种新的类型的去中心化系统,但实际上人们在去中心化的基础上又增加了许多其他有趣的功能。
用户1324186
2022-02-18
1.1K0
大话实时视频编码中的人工智能(下)
上述大多数文献都报告了显著的改进,它们与开源参考软件相比,有令人印象深刻的速度提升。但我们都知道,这些参考代码库远未优化,其速度以“每帧秒数”而非“每秒帧数”表示。要证明相对于这些代码库的速度提升是很容易的,但如果与经过专家调优、用汇编指令集优化并在高帧率和分辨率下实时运行的优化编码器相比,就会变得非常困难。
用户1324186
2022-02-18
5590
大话实时视频编码中的人工智能(上)
在过去的十年中,已经出现了数千篇主张 AI 和 ML 有益处的文章。其中一些是现实的,而另一些则夸大了 ML 技术在大量应用中可能带来的好处。那么真正的好处在哪里,市场营销部门在哪里越过界线,变成了无稽之谈?在诸如实时(视频)处理或编码等严格条件下的应用呢?考虑到计算开销、延迟和成本限制后,能保留了多少净收益?
用户1324186
2022-02-18
7940
用神经网络重新审视 VVC 的 SAO 环路滤器
Philippe 首先介绍道,在最近的视频编解码器中,环路后处理滤波已经成为一种至关重要的组件。它可以减少压缩伪影,并减少与原始样本的失真。AVC 首先引入了去块滤波器,之后 HEVC 额外引入了 Sample Adaptive Offset 后处理滤波器,以减少振铃效应和颜色偏差。最近发布的 VVC 标准设计了一种自适应的环路滤波器,使用基于维那滤波器的自适应滤波系数,来最小化重建像素和原始像素之间的 MSE。
用户1324186
2022-02-18
7380
关于高级视频压缩和应用的讨论
在信息时代,网络带宽作为一种新的资源已经开始与传统的化石能源资源相媲美。在我们的视听世界中,视频现在占据网络流量的 80%,根据思科公司的预测,到明年将达到 82%。视频压缩显然是最基本的工具,它不为公众所知,但实际上,它是我们信息时代的重要推动者之一。随着视频在我们日常生活中的使用越来越多,它的作用在可预见的未来只会呈指数级增长。所以我们今天谈论的技术不仅仅是社会角落里的一些深奥的东西,我们不仅现在在使用它们,而且人们在过去一年半的时间里一直在这种 COVID 大流行下使用它们处理日常事务,或与亲人交谈。
用户1324186
2022-01-20
5910
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档