首页
学习
活动
专区
工具
TVP
发布

媒矿工厂

专栏作者
881
文章
1034179
阅读量
235
订阅数
CVPR 2022 | DiffusionCLIP: 用于稳健图像处理的文本引导扩散模型
近期,结合对比语言-图像预训练(CLIP)的 GAN 反演方法在零样本图像操作方面引起了广泛关注,它可以根据文本提示进行图像操作。然而,由于 GAN 反演性能有限,它在各种类型的真实世界图像上的应用仍然很棘手。具体而言,成功的图像操作应该将图像属性转换为目标属性,同时不会对输入内容产生意外变化。然而,目前最先进的基于编码器的 GAN 反演方法往往不能成功重建具有新姿势、视角和细节的图像。当处理高变异数据集(如 LSUN-Church 和 ImageNet )中的图像时,这个问题变得更加严重。 最近,扩散模型,如去噪扩散概率模型(DDPM)和基于分数的生成模型在图像生成任务上取得了巨大的成功。最新的研究表明,与变分自编码器(VAEs)、流动模型、自回归模型和生成对抗网络(GANs)相比,这些模型在图像合成性能方面具有更高的质量。此外,最近的去噪扩散隐式模型(DDIM)进一步加速了采样过程,并实现了几乎完美的反演。 基于此,本文提出了一种新的 DiffusionCLIP 方法,这是一种通过扩散模型进行 CLIP 引导的强大图像操作方法。其关键思想是使用基于文本提示的 CLIP 损失来微调反向扩散过程中的评分函数,以控制生成图像的属性。这种方法可以成功地在训练过和未见过的领域中进行图像操作,甚至可以将图像从一个未见过的领域转换为另一个未见过的领域,或者从草图中生成未见过的领域的图像。此外,通过简单地将多个经过微调模型预测的噪声组合在一起,可以通过仅进行一次采样过程同时改变多个属性。另外,DiffusionCLIP 通过操作来自广泛多样的 ImageNet 数据集的图像,在 GAN 反演方面取得了一步进展。此前由于其较差的重建效果,该数据集很少被探索。本文还提出了一种系统的方法来寻找导致高质量和快速图像操作的最佳采样条件。
用户1324186
2023-09-09
4380
ECCV 2022|码流信息辅助的压缩视频超分框架
目前网络上的电影、网络广播、自媒体视频等大部分是分辨率较低的压缩视频,而智能手机、平板电脑、电视等终端设备正逐渐配备 2K、4K 甚至 8K 清晰度的屏幕,因此端侧的视频超分辨率(VSR)算法引起越来越广泛的关注。与图像超分辨率(SISR)相比,视频超分辨率(VSR)可以通过沿视频时间维度利用邻近帧的信息来提高超分辨率的效果。视频超分辨率算法大致可以分为两类:基于滑窗的视频超分算法(Sliding-window)和基于循环神经网络的视频超分算法(Recurrent VSR)。基于滑窗的视频超分算法会重复的提取邻近帧的特征,而基于循环神经网络的视频超分辨率算法避免了重复的特征提取,还可以高效的传递长期时间依赖信息,鉴于端侧运算单元和内存有限的情况来说是一个更具潜力的方案。在视频超分中,视频帧之间的对齐对超分辨率性能有着重要的影响。目前的视频超分算法通过光流估计、可形变卷积、注意力和相关性机制等方式来设计复杂的运动估计网络来提升视频超分的性能。而目前商用终端设备很难为视频超分辨率算法提供足够的计算单元和内存来支撑视频帧之间复杂的运动估计以及大量的冗余特征计算。
用户1324186
2022-11-07
1.8K0
视角合成视频的质量评价
基于深度图像的渲染(Depth-image-based rendering, DIBR)是一种广泛使用的视图合成技术。DIBR 包含 3D warping 和孔填充技术。在三维扭曲中,通过将给定的参考彩色视频映射到相关深度视频所需的虚拟视点来生成扭曲视频。在这个过程中,由于可以看到被前景遮挡的背景,所以在扭曲的视频中可能会出现孔洞区域,接下来是填充扭曲视频的洞区域。
用户1324186
2022-05-25
1.7K0
视频编解码器的现状 (2022)
在这个 2022 年的编解码器进展中,我将介绍去年与 H.264、VP9、HEVC、AV1、多功能视频编码(VVC)、低复杂度增强型视频编码(LCEVC)和基本视频编码(EVC)有关的最重要的公告。编解码器有很多,但篇幅有限,所以本文只是简单介绍。
用户1324186
2022-05-25
1.9K0
W3C: 媒体制作 API (3)
来自 WebCodecs 的技术主管 Chris Cunningham 将首先介绍一些 WebCodecs 的 API,并会介绍一些关于视频编码器的设置。
用户1324186
2022-05-25
9900
8K@60fps编码用48Mbps就够吗?
在我们对 8K 视频编码这一新兴领域永无止境的探索中,我们一直试图了解编解码器随着分辨率的提高是否会变得更加高效。如果用 bit/pixel 这个标准来定义的话,这当然是不言而喻的。那么如果要深入探究这个标准,那么就必须回答一个问题:8K 内容所需的真实比特率是多少,更具体地说 8K/60Hz/10bit/HDR 内容编码的比特率是多少?它又取决于什么?
用户1324186
2022-05-25
1.2K0
使用体积视频创建数字人
如图所示是微软混合现实(由 metastage 运营)创建数字人的方法,使用 53 个 RGB 相机和 IR 相机动态捕捉人物动作,然后拼接成点云,进一步生成包含纹理的 mesh,最终变成可传输的 mp4。
用户1324186
2022-04-11
1K0
什么是体积视频?
体积视频在三维空间中捕捉实时画面,并且将其转换为 3D 模型,该模型可以放置在任何 3D 环境中,如虚拟现实环境,元宇宙或者增强现实等。在消费级别,捕获体积视频可以只包括一个深度相机,在生产级别,这可能包括大量的相机,几十台或上百台相机指向目标场景,并且有相同数量的深度相机用于捕捉深度信息,进一步生成点云。将所有的数据进行融合,从而可以得到体积视频。
用户1324186
2022-04-11
4.4K0
AV1编码现状(2022.1)
此前业内认为,AV1 虽然是性能较佳的编码器,但由于其生态尚不完备,因此实用性有待考量。但事实上,在 2022 年的现在看来,AV1 已经显示了一定的部署和应用前景:
用户1324186
2022-04-11
4.6K0
用于 6-DoF 视听内容捕获和制作的工具
虽然该灵活的制片过程主要针对XR应用,因为捕获的6自由度素材可以在给定的运动范围内,并且从任何角度查看。但与此同时,它也可以被用于传统的常规制片流程,只需要在虚拟视角下对所捕获的内容进行框选即可。
用户1324186
2022-04-11
8200
MPEG 第 137 次会议进展
MPEG 第 137 次会议于 2022-01-17 至 2022-01-21 在线举行。
用户1324186
2022-02-18
7780
针对 YUV420 颜色空间的深度图像压缩研究
目前,大多数深度图像压缩方法被设计用来压缩 RGB 颜色空间的图像。然而传统的视频编码标准,则主要设计来压缩 YUV420 色彩空间的图像。在这个研究中,作者首先研究如何调整 RGB 图像的深度压缩框架,以压缩 YUV420 图像。然后研究了调整 YUV 通道的训练失真权重时对编码性能的影响,并将实验结果与 HEVC 和 VVC AI 配置进行比较。提出的方法适用于图像压缩和视频压缩的帧内编码。
用户1324186
2022-02-18
9560
基于显著性的感知视频编码
显著性是某些事物突出的特性。对于图片来说,当图片的内容不是很复杂时,显著性区域可以比较容易的划分出来。一般来说,在图片中存在运动物体、前景物体、以及不相关的物体时,会导致显著性检测的结果更容易出现问题。
用户1324186
2022-02-18
1.1K0
掌握量化技术是视频压缩的关键
视频编码利用信号的信息冗余来降低数据率。无损编码依赖于:差分预测编码、变换、熵编码。有损编码通过添加量化过程来进一步提高压缩效率。
用户1324186
2022-02-18
2.4K0
EVC,VVC,LCEVC 测试:最新的 MPEG 编解码器性能如何?
据我所知,这是第一次有研究对代表基本视频编码(Essential Video Coding,EVC)、通用视频编码(Versatile Video Coding,VVC)和低复杂度增强视频编码(Low Complexity Enhancement Video Coding,LCEVC)的编解码器以及 AV1、HEVC 和 H.264 的质量和性能进行比较。它并不像我希望的那样详尽,但结果应该有助于你了解三个较新的 MPEG 编解码器的目标,以及它们与旧编解码器的对比情况。
用户1324186
2022-02-18
3.6K0
通用场景下的开源优化 VVC 编码器
经测试,VVC 编码标准比 HEVC 有 50% 的码率节省,并广泛支持各种视频内容和用例。与 HEVC 不同的是,第一版 VVC 标准已经具备屏幕内容编码、高层语义划分等功能,并支持各种特殊视频格式:10 bit 位深的高动态范围 (High Dynamic Range, HDR)、可选的色度采样格式 (包括 4:4:4)、分辨率缩放和参考帧重采样。目前,VVC 标准的第二版制定工作正在进行中,该版标准将支持 10 bit 以上位深和更高分辨率视频编码。
用户1324186
2022-02-18
2K0
大话实时视频编码中的人工智能(下)
上述大多数文献都报告了显著的改进,它们与开源参考软件相比,有令人印象深刻的速度提升。但我们都知道,这些参考代码库远未优化,其速度以“每帧秒数”而非“每秒帧数”表示。要证明相对于这些代码库的速度提升是很容易的,但如果与经过专家调优、用汇编指令集优化并在高帧率和分辨率下实时运行的优化编码器相比,就会变得非常困难。
用户1324186
2022-02-18
5590
大话实时视频编码中的人工智能(上)
在过去的十年中,已经出现了数千篇主张 AI 和 ML 有益处的文章。其中一些是现实的,而另一些则夸大了 ML 技术在大量应用中可能带来的好处。那么真正的好处在哪里,市场营销部门在哪里越过界线,变成了无稽之谈?在诸如实时(视频)处理或编码等严格条件下的应用呢?考虑到计算开销、延迟和成本限制后,能保留了多少净收益?
用户1324186
2022-02-18
7940
为编码器的实现计算整数范围
Jonathan 首先介绍了视频编解码器产生的整数溢出失真,如下图所示。事实上,很难计算出编解码器中整数需要多大才能避免这个问题。设计的足够大的整数实际上并不够大,当然太大的整数也会造成实现成本上升。
用户1324186
2022-02-18
4760
有丢包信道下的带宽受限无线视频通信
随着移动设备数量快速增长,国防监控需求也在增大。然而由于无线通信本身就可能出现丢包,因此在编码、视频质量以及误码纠错中一直都有着权衡。
用户1324186
2022-01-20
1.1K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档