首页
学习
活动
专区
工具
TVP
发布

媒矿工厂

专栏成员
910
文章
1074434
阅读量
238
订阅数
Efficient Contextformer:利用空间通道窗口注意力机制实现可学习图像压缩中的快速上下文建模
动机:本文作者的前一篇文章构建了一个基于transformer的上下文模型,这篇文章采用对latent tensor分组、优化训练策略等方式降低模型复杂度。
用户1324186
2024-06-14
620
CVPR 2024 | AVID: 基于扩散模型的任意长视频修复
本文介绍了一种在视频时长和任务范围内通用的视频修复方法。本文认为对用户而言最直接的视频编辑方法是在首帧给定mask并进行文字编辑。给定一个视频,一个初始帧的mask区域和一个编辑提示,该任务需要一个模型在每一帧按照编辑指导进行填充,同时保持mask外区域的完整性。难点有三:1)时域一致性 2)在不同的结构保真度水平下支持不同的修复类型 3)处理任意长度的视频
用户1324186
2024-06-13
550
CVPR 2024 | ChatPose: 谈谈3D人体姿态
现有的3D姿态估计和生成系统被限制在狭窄的任务中。这与LLMs所展示的通用推理能力形成了对比。现有的多模态LLMs能够感知和解释图像中的信息,并基于丰富的世界知识进行推理,特别擅长描述场景,包括人物的外貌、活动和高级行为。如果LLM能将这种通用知识与3D人体姿态和运动联系起来,它将拥有超越现有解决方案的强大推理能力。
用户1324186
2024-06-13
870
TPAMI 2024 | 记忆机制提升 TalkingFace 生成
说话脸生成技术可以根据输入的音频合成与目标人物相符的逼真视频肖像。它在虚拟化身、在线会议和动画电影等应用中展现了巨大的潜力,因为它不仅传达了感兴趣人物的音频内容,还提供了视觉内容。
用户1324186
2024-06-13
440
Zipper: 一种融合多种模态的多塔解码器架构
仅解码器的生成模型在文本、蛋白质、音频、图像和状态序列等多种模态中已经展示了它们能够通过下一个Token预测生成有用的表示,并成功生成新序列。然而,由于世界本质上是多模态的,最近的研究尝试创建能够同时在多个模态中生成输出的多模态模型。这通常通过在预训练或后续微调阶段进行某种形式的词汇扩展(将多模态表示转换为离散标记并将其添加到模型的基本词汇表中)来实现。虽然多模态预训练具有强大的性能优势,但也存在一些问题,如添加新模态后需要从头训练新的模型,并进行超参数搜索,以确定各模态之间的最佳训练数据比例,这使得这种解决方案不适合较小的模态。另一种方法是在预训练后进行词汇扩展,将未见过该模态的模型微调到该模态,但这会破坏原有模型的强大能力,仅能执行微调后的跨模态任务。
用户1324186
2024-06-13
740
SIGGRAPH 2024 | 头像化身动画的 3D 高斯 Blendshapes
图 1:我们的 3D 高斯混合形状类似于经典参数化人脸模型中的网格混合形状,以表情系数线性混合,实时合成逼真的人脸动画。
用户1324186
2024-06-13
650
CVPR2024 | HUGS:人体高斯溅射
真实渲染和人体动态是一个重要的研究领域,具有在AR/VR、视觉特效、虚拟试衣、电影制作等众多应用。早期的工作创建人类化身依赖于多相机捕捉设置中的高质量数据捕捉、大量计算和大量手工努力。最近的工作通过使用3D参数化身体模型如SMPL,直接从视频生成3D化身来解决这些问题,这些模型具有高效光栅化和适应未见变形的能力。然而,参数化模型的固定拓扑结构限制了对衣物、复杂发型和其他几何细节的建模。最近的进展探索了使用神经场来建模3D人类化身,通常使用参数化身体模型作为建模变形的模版。神经场在捕捉衣物、配饰和头发等细节方面表现出色,超越了通过纹理和其他属性光栅化参数化模型所能实现的质量。然而,它们也有不足,特别是在训练和渲染效率方面较低。
用户1324186
2024-05-31
740
CVPR 2024 | DNGaussian: 全局局部深度归一化优化的稀疏三维高斯辐射场
从稀疏输入合成新视图对于辐射场来说是一个挑战。神经辐射场(NeRF)的最新进展在仅使用少量输入视图就能重建出高度逼真的外观和准确的几何信息方面取得了卓越成果。然而,大部分基于稀疏视图的NeRF实现速度较慢,内存消耗也较大,导致时间和计算成本很高,限制了它们的实际应用。
用户1324186
2024-05-31
1600
通过 ServiceNow 平台释放生成式 AI 的力量
CJ Desai:本次主题演讲中我将向你们介绍我们的平台核心、服务管理、员工体验、顾客服务以及生成式AI,并且请到了一位特殊嘉宾,他将为我们分享 AI 的未来走向。
用户1324186
2024-05-31
510
NeurIPS 2022 | VideoMAE:掩蔽自编码器是自监督视频预训练的高效数据学习器
Transformer在自然语言处理方面取得了极大成功,而ViT将Transformer改进到了一系列计算机视觉任务上,包括图像分类、对象检测、语义分割等,同样取得了令人印象深刻的结果。而训练一个高效的ViT通常需要大规模的有监督数据集,预训练的ViT通过使用数亿张标记图像来获得良好的性能。对于视频任务中的Transformer,它们通常基于图像任务中的Transformer,并且在很大程度上依赖于来自大规模图像数据的预训练模型(例如在ImageNet上进行预训练)。
用户1324186
2024-05-31
1080
GTC 2024 | 使用NVIDIA GPU和VMAF-CUDA计算视频质量
传统的视频质量评价指标包括 PSNR 和 SSIM 等。而 VMAF 由 Netflix于 2017 年提出,是一种全参考的视频质量评价指标,分数范围由 0 到 100,越高代表质量越好。VMAF 试图准确地捕捉人类的感知,将人类视觉建模与不断发展的机器学习技术相结合,使其能够适应新的内容,在与人类视觉感知保持一致方面表现出色。VMAF 现在已经被 Netflix,Snap,V-Nova等公司采用。
用户1324186
2024-05-31
1530
MMsys'24 | 基于离线强化学习的实时流媒体带宽精确预测
近年来,实时通信(RTC)已成为一项重要的通信技术,并得到了广泛的应用,包括低延迟直播,视频会议和云游戏。RTC 系统的首要目标是提供高质量的视频和音频并确保稳定的通信过程(例如,避免卡顿、视频模糊)。为了实现这一目标,现有的 RTC 系统(如 WebRTC)基于动态的网络条件预测链路带宽并自适应地调整传输视频质量。主流的带宽预测方法可以分为两类: 启发式算法和机器学习算法。常用的启发式带宽预测算法有 WebRTC 框架中的Google拥塞控制(GCC)。GCC主要通过监测链路的往返时间(RTT)变化来预测带宽。虽然 GCC 展示了其主动避免拥塞的高灵敏度,但现实世界RTC流的复杂性和可变性可能会干扰 GCC 的准确性。而机器学习方案包括在线强化学习与模仿学习,不仅具有很高的训练成本,同时一般基于模拟的网络环境进行训练,往往在真实世界中鲁棒性较差。因此本文提出了一类低成本,高泛化性能的离线训练模型以优化各种网络环境中的用户体验质量(QoE)。
用户1324186
2024-05-21
1690
RTC @scale 2024 | 通过LTR和RS码增强实时通信 (RTC) 网络弹性
近年来,随着 RTC 使用量的显着增长,在网络状况不佳的情况下时常发生数据丢包。数据包丢失在计算机网络中是常见现象,也是网络弹性面临的主要挑战之一。在 RTC 环境中,数据恢复不仅应该实时进行,还要利用尽可能减少带宽的占用。在视频中,作者深入探讨了如何增强视频网络在丢包场景下的弹性。
用户1324186
2024-05-20
1510
HybridFlow:将连续性融入掩码码本以实现极低比特率图像压缩
通过训练有素的神经网络,学习图像压缩(LIC)已被证明优于 VVC 或 JPEG2000 等传统方法。其整体思路是在编码器中将输入图像编码到潜空间中,压缩潜特征以减少传输比特,并在解码器中使用解压缩的潜特征重建输出图像。根据传输信息的类型,LIC 方法大致可分为两类。第一类已被广泛研究,其特点是传输连续的压缩特征图。原始潜特征经过经典的量化和熵编码,得到具有连续值的紧凑比特流,解码器恢复降级的潜特征进行重构。当比特率极低时,由于严重量化,恢复的潜特征质量很差,导致重建质量低,过于平滑,缺乏表现细节。
用户1324186
2024-05-20
1290
CVPR 2024 | Scaffold-GS:自适应视角渲染的结构化 3D 高斯
神经辐射场利用基于学习的参数模型来产生连续的渲染图像,并保留更多的细节。然而,其耗时的随机采样,会导致性能下降和出现潜在的噪声。
用户1324186
2024-05-20
2110
RTC@scale 2024| 实时通话音质提升 Part 1:Beryl回声消除
回声问题指的是在实时通话中听到的自己的声音回响或是失真的音频。例如,当Alice呼叫Bob时,她的声音从Bob手机的扬声器中播放出来。Bob的麦克风拾取Alice的声音,音频信号被发送回Alice,Alice听到她的声音回响。
用户1324186
2024-05-20
1230
Dynamic Pre-training:实现高效、可扩展的一体化(All-in-one)图像恢复
图像恢复 (IR) 任务旨在改进低质量的输入图像。尽管 IR 取得了一些进展,但图像中存在的各种降解类型和严重程度仍然构成重大挑战。大多数现有方法隐式学习图像先验,需要针对不同的退化类型、水平和数据集进行单独的网络训练。此外,这些方法需要先验的图像退化知识,以便在测试期间进行有效的模型选择,因此缺乏通用性来满足各种退化的需求。
用户1324186
2024-05-11
2590
LLMZip:使用大语言模型实现无损文本压缩
学习、预测和压缩之间存在着密切的联系。ChatGPT的成功吸引了公众的广泛关注,并将学习与预测之间的联系推向了前沿。LLaMA和GPT-4等大型语言模型带来的主要进步是,它们能够根据已知的前几个单词(Token)来出色地预测段落中的下一个单词(Token)。
用户1324186
2024-05-11
2900
DynamiCrafter: 利用扩散先验的开放域图片动画化
VideoCrafter的网络架构如图所示,它包括T2V和I2V两个子任务,相应的需要注入Text prompt和image prompt。Motion speed用fps控制,fps和timestep有同样的结构。
用户1324186
2024-05-11
2280
CPEM:通过身份一致性和表情独占约束实现精确的面部运动重定向
现有方法通常将该问题表述为三维人脸重建问题,该问题从人脸图像中估计人脸身份和表情等人脸属性。然而,由于缺乏身份和表情的ground-truth标签,大多数基于3d人脸重建的方法都不能准确地捕捉人脸的身份和表情。因此,这些方法可能无法实现预期的性能。
用户1324186
2024-05-11
1560
点击加载更多
社区活动
AI代码助手快速上手训练营
鹅厂大牛带你玩转AI智能结对编程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档