腾讯云 TVP 成员
暂无搜索历史
动机:本文作者的前一篇文章构建了一个基于transformer的上下文模型,这篇文章采用对latent tensor分组、优化训练策略等方式降低模型复杂度。
本文介绍了一种在视频时长和任务范围内通用的视频修复方法。本文认为对用户而言最直接的视频编辑方法是在首帧给定mask并进行文字编辑。给定一个视频,一个初始帧的ma...
现有的3D姿态估计和生成系统被限制在狭窄的任务中。这与LLMs所展示的通用推理能力形成了对比。现有的多模态LLMs能够感知和解释图像中的信息,并基于丰富的世界知...
说话脸生成技术可以根据输入的音频合成与目标人物相符的逼真视频肖像。它在虚拟化身、在线会议和动画电影等应用中展现了巨大的潜力,因为它不仅传达了感兴趣人物的音频内容...
仅解码器的生成模型在文本、蛋白质、音频、图像和状态序列等多种模态中已经展示了它们能够通过下一个Token预测生成有用的表示,并成功生成新序列。然而,由于世界本质...
图 1:我们的 3D 高斯混合形状类似于经典参数化人脸模型中的网格混合形状,以表情系数线性混合,实时合成逼真的人脸动画。
真实渲染和人体动态是一个重要的研究领域,具有在AR/VR、视觉特效、虚拟试衣、电影制作等众多应用。早期的工作创建人类化身依赖于多相机捕捉设置中的高质量数据捕捉、...
从稀疏输入合成新视图对于辐射场来说是一个挑战。神经辐射场(NeRF)的最新进展在仅使用少量输入视图就能重建出高度逼真的外观和准确的几何信息方面取得了卓越成果。然...
CJ Desai:本次主题演讲中我将向你们介绍我们的平台核心、服务管理、员工体验、顾客服务以及生成式AI,并且请到了一位特殊嘉宾,他将为我们分享 AI 的未来走...
Transformer在自然语言处理方面取得了极大成功,而ViT将Transformer改进到了一系列计算机视觉任务上,包括图像分类、对象检测、语义分割等,同样...
传统的视频质量评价指标包括 PSNR 和 SSIM 等。而 VMAF 由 Netflix于 2017 年提出,是一种全参考的视频质量评价指标,分数范围由 0 到...
近年来,实时通信(RTC)已成为一项重要的通信技术,并得到了广泛的应用,包括低延迟直播,视频会议和云游戏。RTC 系统的首要目标是提供高质量的视频和音频并确保稳...
近年来,随着 RTC 使用量的显着增长,在网络状况不佳的情况下时常发生数据丢包。数据包丢失在计算机网络中是常见现象,也是网络弹性面临的主要挑战之一。在 RTC ...
通过训练有素的神经网络,学习图像压缩(LIC)已被证明优于 VVC 或 JPEG2000 等传统方法。其整体思路是在编码器中将输入图像编码到潜空间中,压缩潜特征...
神经辐射场利用基于学习的参数模型来产生连续的渲染图像,并保留更多的细节。然而,其耗时的随机采样,会导致性能下降和出现潜在的噪声。
回声问题指的是在实时通话中听到的自己的声音回响或是失真的音频。例如,当Alice呼叫Bob时,她的声音从Bob手机的扬声器中播放出来。Bob的麦克风拾取Alic...
图像恢复 (IR) 任务旨在改进低质量的输入图像。尽管 IR 取得了一些进展,但图像中存在的各种降解类型和严重程度仍然构成重大挑战。大多数现有方法隐式学习图像先...
学习、预测和压缩之间存在着密切的联系。ChatGPT的成功吸引了公众的广泛关注,并将学习与预测之间的联系推向了前沿。LLaMA和GPT-4等大型语言模型带来的主...
VideoCrafter的网络架构如图所示,它包括T2V和I2V两个子任务,相应的需要注入Text prompt和image prompt。Motion spe...
现有方法通常将该问题表述为三维人脸重建问题,该问题从人脸图像中估计人脸身份和表情等人脸属性。然而,由于缺乏身份和表情的ground-truth标签,大多数基于3...
上海交通大学 · 研究员 (已认证)
暂未填写学校和专业
暂未填写个人网址