腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

媒矿工厂

专栏作者

881

文章

1033765

阅读量

235

订阅数

SIGGRAPH 2022 | Palette: 针对图像转换的扩散模型

视觉和图像处理中的许多问题可以被表述为图像到图像的转换。这方面的例子包括图像修复任务，如超分辨率、上色和填充，以及像素级图像理解任务，如语义分割和深度估计。实现图像到图像转换的一种方法是学习输出图像的条件分布，使用深度生成模型，该模型可以捕获在图像的高维空间中的多模态分布。本文研究了 Palette 模型对一系列具有挑战性的任务的普遍适用性，包括了分别为着色、填充、反剪切和 JPEG 压缩修复。在没有特定任务的架构定制，也没有改变超参数或损失函数的情况下，Palette 在所有四个任务中产生了高保真的输出，甚至性能超过了特定任务 baseline。本文还研究了Palette的关键部分，包括去噪损失函数和神经网络架构。虽然去噪目标中的L2和L1损失产生类似的样本质量分数，但L2导致模型样本的多样性程度更高，而L1产生更保守的输出。从Palette的U-Net架构中移除自注意力层，从而建立一个全卷积模型会损害模型的性能。

2023-02-03

2.1K0

ECCV 2022｜码流信息辅助的压缩视频超分框架

编程算法文件存储图像处理神经网络

目前网络上的电影、网络广播、自媒体视频等大部分是分辨率较低的压缩视频，而智能手机、平板电脑、电视等终端设备正逐渐配备 2K、4K 甚至 8K 清晰度的屏幕，因此端侧的视频超分辨率（VSR）算法引起越来越广泛的关注。与图像超分辨率（SISR）相比，视频超分辨率（VSR）可以通过沿视频时间维度利用邻近帧的信息来提高超分辨率的效果。视频超分辨率算法大致可以分为两类：基于滑窗的视频超分算法（Sliding-window）和基于循环神经网络的视频超分算法（Recurrent VSR）。基于滑窗的视频超分算法会重复的提取邻近帧的特征，而基于循环神经网络的视频超分辨率算法避免了重复的特征提取，还可以高效的传递长期时间依赖信息，鉴于端侧运算单元和内存有限的情况来说是一个更具潜力的方案。在视频超分中，视频帧之间的对齐对超分辨率性能有着重要的影响。目前的视频超分算法通过光流估计、可形变卷积、注意力和相关性机制等方式来设计复杂的运动估计网络来提升视频超分的性能。而目前商用终端设备很难为视频超分辨率算法提供足够的计算单元和内存来支撑视频帧之间复杂的运动估计以及大量的冗余特征计算。

2022-11-07

1.8K0

MHV 演讲两则

tcp/ip 编程算法文件存储

Jaime Miles 来自 VIPER，他们的团队构建了一个完整的从视频内容获取、处理、存储、传输和播放 5 个部分，如下图所示：

2022-05-25

7150

[基础知识] JPEG 中的信号处理

计算机通常的颜色空间是 RGB 模型，每个像素由三个 0-255 的值表示。每个值由 8 位/1 字节来存储，则图像的每个像素需要占用 3 个字节的存储空间。因此，对于一张 2592×1944 的图片，其占用内存空间可达 15M 字节，但是使用 JPEG 压缩后，其只需要 0.8M 字节，并且不会影响图像的视觉效果。

2022-05-25

1.5K0

UGC 视频质量评价

文件存储迁移学习

简单来说，UGC 视频就是由普通用户拍摄、剪辑并上传到视频平台的视频内容，大多数上传到 YouTube 和其他视频共享平台的视频都是 UGC。以 YouTube 为例，每分钟有500小时的视频被分享，每天有二十亿个活跃用户，分布在 100 多个国家，使用 80 多种不同语言。

2022-04-11

1.7K0

全息视频通话

文件存储编程算法

全息通话，从本质上来说就是 3D 通话，这种通话方式相比传统的 2D 通话来说具有更强的真实性、沉浸性和自然性。目前，全息通话在 AR 中的实现更成熟，但其也可以通过 VR 、手机和笔记本电脑实现。在这篇演讲中，演讲者主要介绍了全息通话的宏观架构和实现时需要克服的技术挑战两个方面。

2022-04-11

1.1K0

MPEG 第 137 次会议进展

图像处理文件存储

MPEG 第 137 次会议于 2022-01-17 至 2022-01-21 在线举行。

2022-02-18

7760

针对 YUV420 颜色空间的深度图像压缩研究

图像处理文件存储

目前，大多数深度图像压缩方法被设计用来压缩 RGB 颜色空间的图像。然而传统的视频编码标准，则主要设计来压缩 YUV420 色彩空间的图像。在这个研究中，作者首先研究如何调整 RGB 图像的深度压缩框架，以压缩 YUV420 图像。然后研究了调整 YUV 通道的训练失真权重时对编码性能的影响，并将实验结果与 HEVC 和 VVC AI 配置进行比较。提出的方法适用于图像压缩和视频压缩的帧内编码。

2022-02-18

9560

使用 JPEG XS 和 AWS CDI 的云端实时视频

文件存储 sdk ide fpga 开源

本次演讲主题为使用 JPEG XS 和 AWS CDI 的云端实时视频，主讲人为来自亚马逊云科技专门从事广播的首席解决方案架构师 Thomas Edwards。

2021-12-17

1.3K0

在 VVC 中实现胶片颗粒技术

胶片颗粒（Film grain）是一种令人愉悦的噪音，可增强视频内容的自然外观。它是在摄影胶片曝光和显影的物理过程中产生的。然而，数字传感器没有经过这样的过程，因此没有胶片颗粒。这会生成无噪声的数字视频，其完美、清晰和明显的边缘和单调的区域会恶化观看者的主观体验。因此，对视频重新添加胶片噪声可以改善视觉体验，内容创作者经常在分发内容之前使用它。这一点尤其被电影行业所接受，许多创作者转向在视频内容中添加电影颗粒的技术，为他们的视频添加质感和温暖，或者有时会产生一种怀旧感。

2021-12-02

2.1K0

在基于学习的图像编解码器压缩域实现超分

文件存储机器学习神经网络深度学习人工智能

近年来，基于学习的图像编码已经显示出很好的效果。在我们的工作中，我们将只考虑单一图像的超分。与视频超分不同，视频可以利用后续帧之间的关联性来获得额外的性能和质量。

2021-12-02

1.6K1

端到端视频压缩中的双向预测

设计双向预测压缩模型的动机在于，现有的端到端视频压缩框架都是采用的 low delay P 的 GOP 结构，只是简单的前向单帧参考。而双向预测在传统的混合编码框架中是很常见的。并且，对于端到端的视频压缩框架来说，从一组图像中捕获运动信息时较为困难的，因此这篇论文提出了一种调整现有的以自编码器为主的帧内预测架构的方法，使得其能够采用更复杂的时域预测结构。

2021-11-23

9530

基于学习的点云残差编码

点云压缩文件存储

最近，沉浸式媒体的呈现模态受到越来越多的关注，点云是其中的重要代表。然而，点云时常包含超过数百万个点，这增加了对高效压缩解决方案的需求。近来，深度学习用于点云压缩被不断研究，并成为点云压缩的重要工具，尤其是其较好的结果引起了编码社区的兴趣。然而，迄今为止提出的大多数解决方案都不支持可伸缩编码。

2021-11-23

1.3K0

时间二次采样对体素视频质量评估精度的影响

点云压缩文件存储

在过去的时间里，体素视频内容吸引了越来越多的研究兴趣，因为它促进了动态现实世界内容在虚拟环境中的集成。点云是表示体素视频内容的最常见替代方法之一。然而，与标准 2D 视频相比，这种表示需要大量的数据存储，并且对压缩算法造成更大的压力。这一挑战引发了新的点云压缩技术开发的新浪潮，需要从生产质量方面对其进行评估。由于数据的高维数，评估相关编码算法的性能可能非常耗时。这为使用复杂但在感知上准确的客观质量指标优化编码算法设置了障碍。

2021-10-12

5310

基于学习的光场图像压缩方法

在传统的 2D 摄影中，从物体上的一个点发出的光被镜头聚焦到传感器上的一个点上，因此我们可以获知从该点发出的光的强度，但是丢失了光线的方向信息。

2021-09-17

7570

Tencent多媒体技术与解决方案

短视频视频分析腾讯会议文件存储沉浸式媒体

Tencent Media lab 致力于研究新型多媒体技术，主要工作集中在多媒体数据的高效压缩与实时通信。例如基于信号处理理论和深度学习方法的图像、视频等内容的处理、分析、质量评估。利用 AR、VR、XR 和全息技术为沉浸式媒体体验提供端到端解决方案的系统设计等。

2021-09-17

5380

Netflix：提升视频编码工作流效率

图像处理数据结构文件存储

首先，我们需要了解视频为什么需要压缩。视频具有庞大的数据量，对于以 4K 或更高的分辨率拍摄的电影，一整天的拍摄将产生 2 至 8T 字节的原始数据。想象一下，一部可能是在几周或几个月内拍摄的电影，这个数据量是非常庞大的。当一部电影准备好后，经过编辑，视频源文件就会被送入 Netflix 系统。通常情况下，视频源文件很大，尽管没有原始镜头那么大，对于一集 1 小时长的视频源文件，将近有 500G 字节大小。向客户提供几百 G 的视频是不现实的，所以我们需要压缩内容，使客户在各种条件下都能流畅地观看，无论他们是用最快宽带下的的 4K HDR 电视，还是用蜂窝网络非常不稳定的移动手机。

2021-08-25

9010

JPEG第92次会议进展

uml 文件存储

原标题：JPEG Committee explores NFT standardization needs

2021-07-29

7620

视频压缩世界中的挑战

开源文件存储编程算法

本次演讲来自PCS2021，演讲者是来自Netflix视频编码算法团队的的Kyle Swanson和Mariana Afonso，主要将谈论Netflix是如何处理视频压缩以及存在的一些挑战。

2021-07-29

7920

JT-NM ProAV的IPMX技术路线图--VidTrans 21小组讨论

文件存储 tcp/ip

本次演讲来自VSF, 由VidTrans 21小组带来，包括来自Diversified的Karl Paulsen、Macnica的Andy Starks、Matrox的David Chiappini、Fox的Richard Friedel。该小组重点讨论了网络媒体联合工作组制定的专业音频/视频（ProAV）标准化路线图。

2021-04-14

5920

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态