暂无搜索历史
基于扩散模型的图像和视频生成技术取得了长足进步。为了实现个性化生成目的,许多作品在生成过程中添加了控制信号,如文本引导的图像和视频生成,以及图像引导的视频生成。
单张图像的超分辨率(SR)是一项至关重要的任务,并吸引了持续的研究兴趣,这对于提高各种下游任务的低分辨率(LR)图像的质量起着至关重要的作用。从频域的角度来看,...
目前,数字内容不仅被人类消费,也被计算机程序消费。通常为每个任务子集创建表示并不能随着任务数量的增加而很好地扩展,此外如果某些任务的信息已经被传输,并且现在相同...
1. 按照输入generator的次序可以将18个style vectors分为三组:
主流编码标准采用划分树结构实现块级预测和变换。以 HEVC 为例,它将图像分割成固定尺寸且互不重叠的 CTU,每个 CTU 能够进一步细分为更小的编码单元 CU...
大语言模型(LLM)的巨大成功和推广性带来了多模态大型语言模型(MLLM)的新研究趋势。我们想知道 LLM 可以给计算机视觉带来多大的好处,以实现更好的性能并实...
视觉信号压缩旨在最小化图像数据,在网络资源和存储容量有限的情况下,提高图像/视频的服务质量。自1991年以来,视觉信号的压缩率每十年增长一倍。然而,在即将到来的...
动机:本文作者的前一篇文章构建了一个基于transformer的上下文模型,这篇文章采用对latent tensor分组、优化训练策略等方式降低模型复杂度。
本文介绍了一种在视频时长和任务范围内通用的视频修复方法。本文认为对用户而言最直接的视频编辑方法是在首帧给定mask并进行文字编辑。给定一个视频,一个初始帧的ma...
现有的3D姿态估计和生成系统被限制在狭窄的任务中。这与LLMs所展示的通用推理能力形成了对比。现有的多模态LLMs能够感知和解释图像中的信息,并基于丰富的世界知...
说话脸生成技术可以根据输入的音频合成与目标人物相符的逼真视频肖像。它在虚拟化身、在线会议和动画电影等应用中展现了巨大的潜力,因为它不仅传达了感兴趣人物的音频内容...
仅解码器的生成模型在文本、蛋白质、音频、图像和状态序列等多种模态中已经展示了它们能够通过下一个Token预测生成有用的表示,并成功生成新序列。然而,由于世界本质...
图 1:我们的 3D 高斯混合形状类似于经典参数化人脸模型中的网格混合形状,以表情系数线性混合,实时合成逼真的人脸动画。
真实渲染和人体动态是一个重要的研究领域,具有在AR/VR、视觉特效、虚拟试衣、电影制作等众多应用。早期的工作创建人类化身依赖于多相机捕捉设置中的高质量数据捕捉、...
从稀疏输入合成新视图对于辐射场来说是一个挑战。神经辐射场(NeRF)的最新进展在仅使用少量输入视图就能重建出高度逼真的外观和准确的几何信息方面取得了卓越成果。然...
CJ Desai:本次主题演讲中我将向你们介绍我们的平台核心、服务管理、员工体验、顾客服务以及生成式AI,并且请到了一位特殊嘉宾,他将为我们分享 AI 的未来走...
Transformer在自然语言处理方面取得了极大成功,而ViT将Transformer改进到了一系列计算机视觉任务上,包括图像分类、对象检测、语义分割等,同样...
传统的视频质量评价指标包括 PSNR 和 SSIM 等。而 VMAF 由 Netflix于 2017 年提出,是一种全参考的视频质量评价指标,分数范围由 0 到...
近年来,实时通信(RTC)已成为一项重要的通信技术,并得到了广泛的应用,包括低延迟直播,视频会议和云游戏。RTC 系统的首要目标是提供高质量的视频和音频并确保稳...
近年来,随着 RTC 使用量的显着增长,在网络状况不佳的情况下时常发生数据丢包。数据包丢失在计算机网络中是常见现象,也是网络弹性面临的主要挑战之一。在 RTC ...
上海交通大学 | 研究员 (已认证)
暂未填写学校和专业
暂未填写个人网址