用户1324186

腾讯云

开发者社区

文档建议反馈控制台

首页TVP

LV1

腾讯云 TVP 成员

全部文章

Efficient Contextformer：利用空间通道窗口注意力机制实现可学习图像压缩中的快速上下文建模
动机：本文作者的前一篇文章构建了一个基于transformer的上下文模型，这篇文章采用对latent tensor分组、优化训练策略等方式降低模型复杂度。
用户1324186 1天前2024-06-14 13:51:03
测试、架构、模型、数据、优化
CVPR 2024 | AVID: 基于扩散模型的任意长视频修复
本文介绍了一种在视频时长和任务范围内通用的视频修复方法。本文认为对用户而言最直接的视频编辑方法是在首帧给定mask并进行文字编辑。给定一个视频，一个初始帧的ma...
用户1324186 2天前2024-06-13 17:47:47
优化、模型、设计、视频、性能
CVPR 2024 | ChatPose: 谈谈3D人体姿态
现有的3D姿态估计和生成系统被限制在狭窄的任务中。这与LLMs所展示的通用推理能力形成了对比。现有的多模态LLMs能够感知和解释图像中的信息，并基于丰富的世界知...
用户1324186 2天前2024-06-13 17:47:15
性能、测试、基础、模型、数据
TPAMI 2024 | 记忆机制提升 TalkingFace 生成
说话脸生成技术可以根据输入的音频合成与目标人物相符的逼真视频肖像。它在虚拟化身、在线会议和动画电影等应用中展现了巨大的潜力，因为它不仅传达了感兴趣人物的音频内容...
用户1324186 2天前2024-06-13 17:46:40
渲染、模型、视频、数据、音频
Zipper: 一种融合多种模态的多塔解码器架构
仅解码器的生成模型在文本、蛋白质、音频、图像和状态序列等多种模态中已经展示了它们能够通过下一个Token预测生成有用的表示，并成功生成新序列。然而，由于世界本质...
用户1324186 2天前2024-06-13 17:45:58
网络、语音、架构、模型、数据
SIGGRAPH 2024 | 头像化身动画的 3D 高斯 Blendshapes
图 1：我们的 3D 高斯混合形状类似于经典参数化人脸模型中的网格混合形状，以表情系数线性混合，实时合成逼真的人脸动画。
用户1324186 2天前2024-06-13 17:45:25
渲染、动画、模型、视频、优化
CVPR2024 | HUGS：人体高斯溅射
真实渲染和人体动态是一个重要的研究领域，具有在AR/VR、视觉特效、虚拟试衣、电影制作等众多应用。早期的工作创建人类化身依赖于多相机捕捉设置中的高质量数据捕捉、...
用户1324186 15天前2024-05-31 20:16:39
渲染、工作、模型、视频、数据
CVPR 2024 | DNGaussian: 全局局部深度归一化优化的稀疏三维高斯辐射场
从稀疏输入合成新视图对于辐射场来说是一个挑战。神经辐射场(NeRF)的最新进展在仅使用少量输入视图就能重建出高度逼真的外观和准确的几何信息方面取得了卓越成果。然...
用户1324186 15天前2024-05-31 20:15:55
模型、数据、优化、渲染、函数
通过 ServiceNow 平台释放生成式 AI 的力量
CJ Desai：本次主题演讲中我将向你们介绍我们的平台核心、服务管理、员工体验、顾客服务以及生成式AI，并且请到了一位特殊嘉宾，他将为我们分享 AI 的未来走...
用户1324186 15天前2024-05-31 20:15:24
服务、工作、工作流、servicenow、代理
NeurIPS 2022 | VideoMAE：掩蔽自编码器是自监督视频预训练的高效数据学习器
Transformer在自然语言处理方面取得了极大成功，而ViT将Transformer改进到了一系列计算机视觉任务上，包括图像分类、对象检测、语义分割等，同样...
用户1324186 15天前2024-05-31 20:14:47
模型、设计、视频、数据、性能
GTC 2024 | 使用NVIDIA GPU和VMAF-CUDA计算视频质量
传统的视频质量评价指标包括 PSNR 和 SSIM 等。而 VMAF 由 Netflix于 2017 年提出，是一种全参考的视频质量评价指标，分数范围由 0 到...
用户1324186 15天前2024-05-31 20:14:15
编码、视频、cuda、gpu、nvidia
MMsys'24 | 基于离线强化学习的实时流媒体带宽精确预测
近年来，实时通信（RTC）已成为一项重要的通信技术，并得到了广泛的应用，包括低延迟直播，视频会议和云游戏。RTC 系统的首要目标是提供高质量的视频和音频并确保稳...
用户1324186 25天前2024-05-21 20:21:54
流媒体、模型、视频、强化学习、函数
RTC @scale 2024 | 通过LTR和RS码增强实时通信 (RTC) 网络弹性
近年来，随着 RTC 使用量的显着增长，在网络状况不佳的情况下时常发生数据丢包。数据包丢失在计算机网络中是常见现象，也是网络弹性面临的主要挑战之一。在 RTC ...
用户1324186 26天前2024-05-20 13:58:24
scale、视频、实时通信、网络、rtc
HybridFlow：将连续性融入掩码码本以实现极低比特率图像压缩
通过训练有素的神经网络，学习图像压缩（LIC）已被证明优于 VVC 或 JPEG2000 等传统方法。其整体思路是在编码器中将输入图像编码到潜空间中，压缩潜特征...
用户1324186 26天前2024-05-20 13:57:04
框架、模型、索引、压缩、重构
CVPR 2024 | Scaffold-GS：自适应视角渲染的结构化 3D 高斯
神经辐射场利用基于学习的参数模型来产生连续的渲染图像，并保留更多的细节。然而，其耗时的随机采样，会导致性能下降和出现潜在的噪声。
用户1324186 26天前2024-05-20 13:56:02
渲染、存储、函数、模型、数据
RTC@scale 2024| 实时通话音质提升 Part 1：Beryl回声消除
回声问题指的是在实时通话中听到的自己的声音回响或是失真的音频。例如，当Alice呼叫Bob时，她的声音从Bob手机的扬声器中播放出来。Bob的麦克风拾取Alic...
用户1324186 26天前2024-05-20 13:55:04
音频、rtc、scale、解决方案、性能
Dynamic Pre-training：实现高效、可扩展的一体化(All-in-one)图像恢复
图像恢复（IR）任务旨在改进低质量的输入图像。尽管 IR 取得了一些进展，但图像中存在的各种降解类型和严重程度仍然构成重大挑战。大多数现有方法隐式学习图像先...
用户1324186 2024-05-112024-05-11 17:38:43
网络、性能、dynamic、模型、数据
LLMZip:使用大语言模型实现无损文本压缩
学习、预测和压缩之间存在着密切的联系。ChatGPT的成功吸引了公众的广泛关注，并将学习与预测之间的联系推向了前沿。LLaMA和GPT-4等大型语言模型带来的主...
用户1324186 2024-05-112024-05-11 17:38:36
编码、模型、数据、性能、压缩
DynamiCrafter: 利用扩散先验的开放域图片动画化
VideoCrafter的网络架构如图所示，它包括T2V和I2V两个子任务，相应的需要注入Text prompt和image prompt。Motion spe...
用户1324186 2024-05-112024-05-11 17:32:25
数据、网络、动画、模型、视频
CPEM：通过身份一致性和表情独占约束实现精确的面部运动重定向
现有方法通常将该问题表述为三维人脸重建问题，该问题从人脸图像中估计人脸身份和表情等人脸属性。然而，由于缺乏身份和表情的ground-truth标签，大多数基于3...
用户1324186 2024-05-112024-05-11 17:32:18
渲染、函数、模型、网络、重定向

12 3 4 5 6 7 8...46 下一页

个人简介

上海交通大学 | 研究员
上海交通大学 · 研究员 (已认证)
博士生导师，IEEE高级会员，上海交通大学图像通信与网络工程研究所副所长。研究方向是视频编码、图像处理及计算视觉。主持国家级科研项目10余项，发表学术论文150余篇，获授权发明专利35项，软件著作权5项。获国家科技进步二等奖、上海市科技进步一等奖、上海市技术发明一等奖、日本大川基金研究奖、IEEE ICME-Twitch竞赛奖等。
人工智能深度学习机器学习 ide http
暂未填写学校和专业
暂未填写个人网址
上海
加入社区时间：2018-02-05

个人成就

已成为 TVP
- 腾讯云 TVP 成员
获得 2.4K 次赞同
文章被阅读 1.1M 次

关注了：6关注者：325

用户1324186

全部文章

Efficient Contextformer：利用空间通道窗口注意力机制实现可学习图像压缩中的快速上下文建模

CVPR 2024 | AVID: 基于扩散模型的任意长视频修复

CVPR 2024 | ChatPose: 谈谈3D人体姿态

TPAMI 2024 | 记忆机制提升 TalkingFace 生成

Zipper: 一种融合多种模态的多塔解码器架构

SIGGRAPH 2024 | 头像化身动画的 3D 高斯 Blendshapes

CVPR2024 | HUGS：人体高斯溅射

CVPR 2024 | DNGaussian: 全局局部深度归一化优化的稀疏三维高斯辐射场

通过 ServiceNow 平台释放生成式 AI 的力量

NeurIPS 2022 | VideoMAE：掩蔽自编码器是自监督视频预训练的高效数据学习器

GTC 2024 | 使用NVIDIA GPU和VMAF-CUDA计算视频质量

MMsys'24 | 基于离线强化学习的实时流媒体带宽精确预测

RTC @scale 2024 | 通过LTR和RS码增强实时通信 (RTC) 网络弹性

HybridFlow：将连续性融入掩码码本以实现极低比特率图像压缩

CVPR 2024 | Scaffold-GS：自适应视角渲染的结构化 3D 高斯

RTC@scale 2024| 实时通话音质提升 Part 1：Beryl回声消除

Dynamic Pre-training：实现高效、可扩展的一体化(All-in-one)图像恢复

LLMZip:使用大语言模型实现无损文本压缩

DynamiCrafter: 利用扩散先验的开放域图片动画化

CPEM：通过身份一致性和表情独占约束实现精确的面部运动重定向

个人简介

个人成就

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐