首页
学习
活动
专区
工具
TVP
发布

媒矿工厂

专栏作者
887
文章
1035320
阅读量
236
订阅数
CVPR 2024 | SC-GS: 可编辑动态场景中的系数控制高斯溅射
最近,高斯溅射作为一种表示场景为 3D 高斯点的方法,显示出在渲染质量、分辨率和速度方面的显著性能。然而,现有的高斯溅射公式只适用于静态场景,将对象运动整合到高斯表示中而不损害渲染质量和速度仍然是一个挑战。
用户1324186
2024-04-26
120
IEEE Transactions on Multimedia | 实时自由视角视频生成系统
随着5G网络和边缘计算技术的普及,实时自由视角视频合成方法在自由视角视频直播、3D电视、快速自由视角视频渲染以及许多其他场景中的应用越来越广泛。一般来说,实时自由视角视频合成方法可以分为五类:密集相机布置、基于3D模型重建的合成、基于神经渲染的合成、帧插值,以及基于深度图像的渲染(DIBR)。在这五类中,DIBR是在自由视角视频系统中最有效和广泛使用的方法。 为了开发基于DIBR的自由视角视频渲染方法,已经做出了巨大努力,因为它们提供了几个优点:
用户1324186
2024-04-26
80
ICCV 2023 | Imitator:个性化语音驱动的 3D 人脸动画
图 1:Imitator 是一种用于个性化语音驱动 3D 人脸动画的新方法。给定音频序列和个性化风格嵌入作为输入,我们生成特定人物的运动序列,并为双唇辅音('m','b','p')提供准确的唇闭合。主体的风格嵌入可以从一个简短参考视频(5 秒)中计算得到。
用户1324186
2024-04-26
120
CVPR2024 | ProbTalk:变化且协调的整体语音运动生成
用语音驱动来生成逼真的全身动作对于提供更沉浸式和互动式用户体验至关重要。这个任务引起了相当多的研究兴趣。Habibie等人提出的早期方法使用确定性回归模型将语音信号映射到整体动作。虽然在某些方面有效,但相同的语音内容会生成相同的动作,生成效果不够自然。为了改进这一点,TalkSHOW提出了一种混合方法,使用确定性建模来处理面部表情,使用概率建模来处理手势和身体动作。尽管TalkSHOW在身体姿势方面取得了更多的多样性,但仍然存在面部运动的多样性不足的问题。此外,TalkSHOW中使用的分离建模策略可能会导致不同身体部位之间的协调不够流畅。为了解决这些挑战,我们提出了ProbTalk,这是一个基于变分自动编码器(VAE)架构的新框架,包括三个核心设计。首先,我们将PQ应用于VAE。PQ将整体运动的潜在空间划分为多个子空间进行单独量化。PQ-VAE的构成性质提供了更丰富的表示,使得复杂的整体运动可以用较低的量化误差来表示。其次,我们设计了一种新颖的非自回归模型,将MaskGIT和2D位置编码集成到PQ-VAE中。MaskGIT是一种训练和推断范式,它同时预测所有latene code,显著减少了推断所需的步骤。2D位置编码考虑了PQ引入的额外维度,有效地保留了latene code中时间和子空间的二维结构信息。最后,我们使用一个refinement来细化初步预测的动作。这三个设计的结合使ProbTalk能够生成自然和多样化的全身语音运动,优于几种最先进的方法。
用户1324186
2024-04-26
170
CVPR 2024 | ConTex-Human:纹理一致的单视图人体自由视图渲染
自由视角人体合成或渲染对于虚拟现实、电子游戏和电影制作等各种应用都是必不可少的。传统方法通常需要密集的相机或深度传感器来重建几何形状并细化渲染对象的纹理,从而产生繁琐和耗时的过程。
用户1324186
2024-04-26
300
RTC @scale 2024 | 如何提升国际通话质量
通话几乎完全由音频和视频数据包组成,这些数据包在通话参与者之间交换。许多连接到互联网的设备都在网络地址转换(NAT)单元后面,这可能会阻止它们直接与其他设备通信。这就需要有一个“中间人”——一个通话中继器——来帮助在通话参与者之间中继媒体数据包,如图1所示。
用户1324186
2024-04-26
140
GES: 通用指数高斯用于高效渲染
在游戏、电影和元宇宙中追求更具吸引力和沉浸式的虚拟体验,需要在视觉丰富性和计算效率之间平衡的三维技术进步。在这方面,三维高斯散点(GS)是对神经辐射场的最新替代方案,用于学习和渲染三维对象和场景。GS将场景表示为大量小的、有色的高斯模型。其主要优势是存在一个非常快速的可微渲染器,这使得这种表示非常适合实时应用,并显著降低了学习成本。具体来说,快速渲染可学习的三维表征对于游戏等应用至关重要,这些应用需要高质量、流畅且响应迅速的图形。
用户1324186
2024-04-19
930
MM2023 | Reparo:低速网络中通过智能帧恢复的QoE感知实时视频流传输
实时视频流传输中,从上传客户端到媒体服务器的上行带宽通常是不足的。因此,上传客户端可能需要以更低的比特率对高质量的视频帧进行编码,从而降低用户的QoE。为解决这个问题,已经有一些方案被提出:
用户1324186
2024-04-18
1180
HotNets 23 | 将slowdown作为拥塞控制公平性指标
传统上,研究人员通过启动多个共享瓶颈链路的流,让这些流尽可能多地发送数据,然后评估流量速率公平性,即这些流是否获得了相等的吞吐量。然而,这种传统的评估设置并不现实,也没有关注用户的实际需求。文章指出,这种传统评估方法存在三个核心问题:
用户1324186
2024-04-18
1240
HotNets 23 | 通过语义驱动的全息通信丰富远程呈现
全息通信受益于3D内容的传递。全息图可以使用体积内容生成,以捕捉3D对象/场景,通常通过点云或网格表示。此外,如神经辐射场(NeRF)等隐式神经表示的最新进展作为表示体积内容的一种可行替代方案越来越受欢迎。然而,NeRF主要是为静态场景设计的,需要先验知识进行训练,这使得它直接应用于实时互动全息通信变得具有挑战性。体积内容的一个独特方面是它能够让观看者不仅可以改变观看方向,还可以在3D空间中自由移动,这称为六自由度(6DoF)运动。
用户1324186
2024-04-18
930
CVPR 2024 | VastGaussian:用于大型场景重建的3D高斯
基于NeRF的方法在处理大型场景时,渲染时间长且渲染效果差。而现有基于3D高斯的方法由于训练内存大、优化时间长和外观变化剧烈,难以扩展到大型场景。
用户1324186
2024-04-12
1000
RTC @scale 2024 | RTC 下基于机器学习的带宽估计和拥塞控制
演讲者在进行介绍基于机器学习的带宽预测和拥塞控制方法之前,先介绍了当前 webRTC 中应用的基于 Google 拥塞控制机制的带宽预测方法(GCC)。
用户1324186
2024-04-12
950
RTC @scale 2024 | 提升实时通信的视频质量
我(SHYAM SADHWANI)是meta的一名软件工程师,我和亿万用户一样使用视频通话app与家人朋友保持联系,音视频质量在这一场景中非常重要。我有一段时间非常好奇,这种视频质量为什么不如Netflix流,在我使用相同的设备和网络的情况下,我在Netflix中获得了非常高质量的流,但是在TRC通话中我认为质量应该更好。非常幸运的是我找到了视频通话app的工作,我们探索了很多该领域的挑战,并且在接下来的演讲中我将分析我们在这一过程中学到的和所做的。
用户1324186
2024-04-12
1140
IBC 2023 | VVC在自适应流式处理工作流程中支持OPENGOP编码
随机接入点(RAPs)在视频娱乐应用中非常重要。它们指的是编码视频流中的特定点,观众可以在这些点开始播放,而不必等待整个码流加载。这个技术在调谐或切换频道的广播以及自适应流中尤为重要,在自适应流中,视频流通常被划分为较小的片段,并根据观众的带宽和设备能力动态传输。
用户1324186
2024-04-12
940
RTC @scale 2024 | RTC 可观测性
提供调试动力的主要数据来源是日志记录。参与通话的所有实体都会生成日志。我们有可以分为以下几类的不同类型的日志:
用户1324186
2024-04-12
1070
RTC @scale 2024 | 通过 5G 网络提供沉浸式 360° 视频
沉浸式媒体在当今互联网和技术网络上被广泛的使用,例如元宇宙、AR、VR 和云游戏等。而由于带宽和延迟的限制,在公共网络,尤其是 5G 无线网络上传输和广播沉浸式媒体是一个公认的挑战。我将以 360° 视频为例来分析目前的技术栈瓶颈,并展示我们的团队在该方面所做的工作。
用户1324186
2024-04-12
840
FSGS: 基于 Gaussian Splatting 的实时 Few-shot 视角合成
新视角合成是计算机视觉和图形学领域中一项长期存在并且富有挑战的任务。过去两年,NeRF及其衍生工作的提出将该任务提升到了新的高度。然而,基于NeRF的方法的训练和渲染需要大量的成本才能达到理想的效果,比如稠密的输入视角和耗时的训练与渲染。尽管后续的一些稀疏视角NeRF的工作以及InstantNGP的提出在一定程度上解决了部分缺陷,但NeRF方法始终没有做到实时和高质量的高分辨率渲染。
用户1324186
2024-04-12
1730
CVPR2024 | CoSeR:连接图像与语言实现认知超分辨率
真实世界的图像超分辨率(SR)是图像处理领域的一项基本任务,旨在增强低分辨率(LR)图像,生成对应的高分辨率(HR)图像。尽管近年来该领域取得了重大进展,但复杂现实场景的处理仍然面临着持久的挑战。利用图像先验是解决现实世界SR问题的常用策略,而最近出现的文生图扩散模型显示出基于用户提供的提示生成高质量图像的卓越能力。这些模型不仅具有强大的图像先验,而且能够以语言的形式对人类指令做出精确的反应。这展示了连接低级图像处理和高级抽象认知的可能性。传统的图像超分辨率技术坚持自下而上的方法,主要集中于局部内容和直接像素级处理。这些方法在把握整体图像上下文方面表现出固有的局限性,往往无法恢复严重退化但语义上至关重要的细节。此外,考虑到LR图像的病态性质,有可能引入语义错误的纹理。为了应对这些挑战,有必要为 SR 模型注入“认知”能力。因此,本文提出了一种先进的 SR 方法,称为认知超分辨率(CoSeR),它与人类在图像感知中采用的自上而下的认知过程一致。它从认知嵌入的生成开始,这是一种封装了 LR 图像总体理解的表示,包含场景语义和图像外观。这种认知嵌入能够精确地利用嵌入在预训练的文生图模型中的隐含先验知识,从而以类似于人类专业知识的方式增强恢复图像细节的能力。先前的工作使用分割图来提供语义,然而,获取现实世界LR图像的理想的分割图仍然很困难,且语义分割受限于预先定义的类别,限制了它在开放世界场景中的适用性。除了隐式地利用扩散先验,本文还显式地利用了图像先验。本文提出了一种新的方法,使用来自 LR 输入的认知嵌入,通过扩散模型生成参考图像,并将其用于指导恢复过程。如图1所示,认知嵌入包含了语言理解,同时保留了图像的颜色和纹理信息,从而产生了高质量的参考图像,不仅在语义上对齐,而且在外观上相似。这种显式方法在捕获高清纹理方面带来了实质性的改进。为了同时保证纹理的真实感和保真度,本文引入了一种“All-in-Attention”设计,通过注意机制集成了多个信息源,包括认知嵌入、参考图像和 LR 输入。这种方法允许模型灵活地使用不同的条件组件,从而产生改进的结果。实验表明,与以前的方法相比,本文的模型在生成更复杂的纹理的同时保持了保真度。
用户1324186
2024-04-12
2080
CVPR 2023 | 使用混合 Transformer-CNN 架构学习图像压缩
CNN-based图像压缩方法能较好地提取局部信息,Transformer-based图像压缩方法能较好地提取全局信息,于是想将这两者的优势相结合。
用户1324186
2024-04-12
2240
UniEdit:无需训练的统一视频运动和外观编辑框架
近来,尽管文本引导的视频编辑工作已取得了不错的进展,但时间维度的视频动作编辑依然是颇具挑战的。本工作提出了UniEdit,一个同时支持外观和动作编辑的零训练框架。UniEdit借助预训练文生视频模型,并采取先反转后编辑(inversion-then-generation)的框架。
用户1324186
2024-04-12
870
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档